ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
请先 登录 后再提交论文
ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
TIR-Bench:面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
这篇论文提出了一个名为TIR-Bench的新基准测试,专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力,填补了现有测试在衡量高级视觉思维方面的不足。
通过持续预训练扩展智能体能力 / Scaling Agents via Continual Pre-training
这篇论文提出了一种名为Agentic CPT的持续预训练方法,通过构建强大的智能体基础模型来解决现有方法在复杂任务中表现不佳的问题,并在多个基准测试中取得了领先性能。
VerlTool:面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
这篇论文提出了一个名为VerlTool的统一模块化框架,解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题,通过标准化工具管理、异步执行加速和模块化设计,在多个任务领域实现了高效且可扩展的智能体训练。