ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
请先 登录 后再提交论文
ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
SimWorld:一个面向物理与社交世界中自主智能体的开放式真实模拟器 / SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds
这篇论文介绍了一个名为SimWorld的新型高仿真模拟器,它基于虚幻引擎5构建,旨在为大型语言模型和视觉语言模型驱动的智能体提供一个开放、真实且可定制的物理与社交环境,以训练和评估它们在复杂现实任务(如多智能体协作与竞争)中的表现,并揭示了不同前沿模型的推理模式与局限。
Artemis:用于感知策略学习的结构化视觉推理框架 / Artemis: Structured Visual Reasoning for Perception Policy Learning
这篇论文提出了一个名为Artemis的新框架,它通过使用结构化的视觉对象框作为中间推理步骤,解决了传统语言推理在视觉感知任务中效果不佳的问题,从而显著提升了机器在理解和处理视觉信息时的准确性和泛化能力。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
Skywork-R1V4:通过图像与深度研究的交替思考迈向具身多模态智能 / Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
这篇论文提出了一个名为Skywork-R1V4的新型多模态智能体模型,它通过将图像处理与网络搜索深度结合并交替推理,仅用少量高质量数据训练就实现了超越现有顶尖模型的复杂任务解决能力。
深度研究:一项系统性综述 / Deep Research: A Systematic Survey
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。
InnoGym:评估AI智能体创新潜力的基准测试 / InnoGym: Benchmarking the Innovation Potential of AI Agents
这篇论文提出了首个专门评估AI智能体创新潜力的基准测试框架InnoGym,它通过‘性能增益’和‘方法新颖性’两个指标来衡量智能体是否不仅能给出正确答案,还能提出原创性的解决方案,揭示了当前AI在创造性与有效性之间存在差距。
工具交响乐:通过高效的模型与工具编排提升智能 / ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
这篇论文提出了一种名为ToolOrchestra的方法,通过训练一个小型的‘指挥家’模型来协调调用各种智能工具,从而在解决复杂任务时,以更低的成本实现了比大型语言模型(如GPT-5)更高的性能和效率,并且能更好地满足用户偏好。
超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
GoRL:一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
这篇论文提出了一个名为GoRL的新框架,它通过将策略的优化过程与动作生成过程分离,巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾,从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。