📄 论文总结
SAIL-RL:通过双奖励强化学习指导多模态大语言模型何时及如何思考 / SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
1️⃣ 一句话总结
这项研究提出了SAIL-RL强化学习框架,通过双重奖励机制教会多模态大语言模型在简单任务中避免过度思考、在复杂任务中充分推理,从而显著提升模型推理能力和可靠性。
请先 登录 后再提交论文
SAIL-RL:通过双奖励强化学习指导多模态大语言模型何时及如何思考 / SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
这项研究提出了SAIL-RL强化学习框架,通过双重奖励机制教会多模态大语言模型在简单任务中避免过度思考、在复杂任务中充分推理,从而显著提升模型推理能力和可靠性。
更短但不更差:通过简单样本作为数学RLVR中的长度正则化器进行节俭推理 / Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
这项研究发现,在训练大型语言模型进行数学推理时,保留并适度增加中等难度问题的权重可以有效防止模型产生冗长输出,从而在不牺牲准确性的前提下,使模型学会用更短的推理步骤解决复杂问题。
阿里阿德涅:一个用于探索和扩展视觉语言模型推理边界的可控框架 / Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
这篇论文提出了一个名为Ariadne的可控框架,通过使用合成迷宫进行强化学习训练,成功扩展了视觉语言模型在视觉主导的空间推理任务上的能力边界,并显著提升了模型在真实世界导航任务中的零样本泛化性能。
UME-R1:探索推理驱动的生成式多模态嵌入 / UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
这项研究提出了一种新的多模态嵌入方法UME-R1,通过结合推理驱动的生成式学习,显著提升了图像、视频等多媒体任务的处理性能,并揭示了生成式嵌入相比传统方法的优势。
代理组织时代:利用语言模型进行组织学习 / The Era of Agentic Organization: Learning to Organize with Language Models
这篇论文提出了一种名为异步思维的新方法,让多个AI代理通过动态分工和协作来解决复杂问题,不仅推理速度更快,还能在数学推理等任务上取得更好效果,并且学到的协作能力可以直接应用到新任务中。
基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance
这篇论文提出了一种名为CROPI的新方法,通过理论指导的数据选择技术,大幅提升了大型语言模型在强化学习训练中的效率,仅用10%的数据就能实现2.66倍的加速效果。
PORTool:基于奖励树的工具使用大语言模型训练方法 / PORTool: Tool-Use LLM Training with Rewarded Tree
这篇论文提出了一种名为PORTool的强化学习方法,通过构建树状轨迹并分配步骤奖励来训练大语言模型更有效地使用外部工具,从而在动态环境中提升问题解决的准确性和效率。
EHR-R1:一种用于电子健康记录分析的推理增强基础语言模型 / EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
这篇论文开发了一个名为EHR-R1的增强推理大语言模型,通过大规模数据集和专门训练方法,在电子健康记录分析任务上显著超越了现有先进模型,提升了临床决策的准确性和可靠性。
CityRiSE:通过强化学习在视觉语言模型中推理城市社会经济状况 / CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
这项研究提出了一种名为CityRiSE的新方法,通过强化学习指导大型视觉语言模型从街景和卫星图像中识别关键视觉线索,从而更准确、可解释地预测城市社会经济状况,并在不同城市和指标上展现出更强的泛化能力。
DeepAgent:一种具备可扩展工具集的通用推理智能体 / DeepAgent: A General Reasoning Agent with Scalable Toolsets
这篇论文提出了一个名为DeepAgent的通用推理智能体,它能够在一个统一的推理过程中自主思考、发现工具并执行动作,同时通过创新的记忆压缩和强化学习技术有效解决了长序列任务中的上下文爆炸和错误累积问题,在多种工具使用和实际应用场景中显著优于现有方法。