arXiv ID:
2509.01656
基于工具增强的视觉感知强化学习 / Reinforced Visual Perception with Tools
1️⃣ 一句话总结
本研究提出一种基于强化学习的视觉工具增强方法,通过训练多模态大模型自主调用四种视觉工具,在多个视觉推理基准测试中显著超越传统监督学习方法,有效提升了模型的视觉感知与推理能力。
基于工具增强的视觉感知强化学习 / Reinforced Visual Perception with Tools
本研究提出一种基于强化学习的视觉工具增强方法,通过训练多模态大模型自主调用四种视觉工具,在多个视觉推理基准测试中显著超越传统监督学习方法,有效提升了模型的视觉感知与推理能力。
OpenVision 2:面向多模态学习的生成式预训练视觉编码器家族 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
这篇论文提出了一个简化的视觉编码器OpenVision 2,它通过移除文本编码器和对比损失、仅保留生成式训练方法,在保持多模态任务性能的同时,显著提升了训练效率并降低了资源消耗。
通过向同行小组学习改进大型视觉语言模型 / Improving Large Vision and Language Models by Learning from a Panel of Peers
这项研究提出了一种让多个大型视觉语言模型互相评估和学习的新方法,通过模拟同行评审过程来提升模型性能,无需依赖大量人工标注数据,在多个测试中平均得分从48%提升至57%。
Kwai Keye-VL 1.5 技术报告 / Kwai Keye-VL 1.5 Technical Report
这篇论文提出了Keye-VL-1.5模型,它通过创新的慢快视频编码、渐进式预训练和综合后训练方法,显著提升了视频理解能力,在保持通用多模态任务竞争力的同时,特别擅长处理动态复杂的视频内容。
深度研究竞技场:基于学术研讨会的任务首次检验大语言模型的研究能力 / DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
这篇论文提出了一个名为DeepResearch Arena的新基准测试,它利用真实学术研讨会内容自动生成高质量研究任务,有效评估大语言模型在多学科研究中的综合能力,并发现当前先进模型仍面临显著挑战。
M3Ret:通过自监督实现零样本多模态医学图像检索 / M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
这项研究提出了一种名为M3Ret的统一自监督学习框架,无需针对不同医学图像模态定制模型,就能在零样本条件下高效检索2D、3D和视频等多种类型的医学图像,并展现出对未见过模态的泛化能力。
面向更富多样性和挑战性的点云学习预训练:基于解耦视图的自监督交叉重建 / Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
这篇论文提出了一种名为Point-PQAE的新型点云自监督学习方法,通过生成两个不同的点云视图并让它们相互重建,显著提升了预训练的难度和效果,在多个基准测试中性能优于现有方法。
POINTS-Reader:无需蒸馏的视觉-语言模型文档转换适配方法 / POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
这项研究提出了一种无需依赖教师模型蒸馏的两阶段自动化框架,通过生成合成数据和自我改进迭代训练,显著提升了复杂格式文档转换的准确性和数据质量。
Robix:一种用于机器人交互、推理与规划的统一模型 / Robix: A Unified Model for Robot Interaction, Reasoning and Planning
这篇论文提出了一个名为Robix的统一模型,它能让机器人像人一样思考、规划和对话,通过整合推理、任务规划和自然语言交互,使机器人能够执行复杂指令、处理突发情况并与人类流畅沟通,其性能甚至超越了GPT-4o等先进模型。
VerlTool:面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
这篇论文提出了一个名为VerlTool的统一模块化框架,解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题,通过标准化工具管理、异步执行加速和模块化设计,在多个任务领域实现了高效且可扩展的智能体训练。
请先 登录 后再提交论文