ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
请先 登录 后再提交论文
ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
MathSE:通过自演进迭代反思与奖励引导微调提升多模态数学推理能力 / MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning
这篇论文提出了一个名为MathSE的自演进框架,通过推理、反思和奖励反馈的循环迭代,显著提升了多模态大语言模型在复杂数学问题上的解决能力。
超越正确性:跨文化主观写作偏好评估 / Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
这篇论文通过构建跨文化写作偏好数据集发现,当前主流的人工智能偏好学习方法主要依赖识别客观错误,而难以有效捕捉人类对写作风格、创意等主观品质的偏好,提出采用生成式推理模型能显著提升主观偏好的判断准确率。
VR-Thinker:通过图像思维推理提升视频奖励模型 / VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
这篇论文提出了一种名为VR-Thinker的新方法,通过让奖励模型主动选择和更新视频中的关键画面来进行视觉推理,从而显著提高了对长视频内容评估的准确性和可靠性。
混合强化:当奖励稀疏时,密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
这篇论文提出了一种名为HERO的混合强化学习框架,通过结合确定性验证器的稳定性和奖励模型的精细反馈,有效提升大语言模型在数学推理等任务中的性能,尤其在奖励信号稀疏或答案难以验证的情况下表现更优。
LongRM:揭示并突破奖励建模的上下文边界 / LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
本文提出了一个专门评估长上下文奖励模型的新基准Long-RewardBench,并开发了一种多阶段训练方法,使模型在长对话场景中既能准确判断回答与上下文的关联性,又保持了短文本处理能力,其8B参数模型性能甚至超越了一些70B级模型。
ToolRM:面向工具调用大语言模型的结果奖励模型 / ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
这篇论文针对大语言模型使用外部工具时现有奖励模型评估效果不佳的问题,提出了一个基于结果的新型奖励模型训练框架,并在多个测试中显著提升了模型使用工具完成任务的性能。
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习 / Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
本研究提出了一种名为Pref-GRPO的新方法,通过比较图像对的偏好来替代传统评分机制,有效防止强化学习训练中的奖励作弊问题,并引入了一个更精细的评估基准UniGenBench来全面衡量文本生成图像模型的表现。