📄 论文总结
面向大语言模型的智能体强化学习研究全景:一项综述 / The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
1️⃣ 一句话总结
这篇综述系统梳理了将大语言模型从被动文本生成器转变为能在复杂环境中自主决策的智能体的强化学习方法,提出了基于核心能力和应用领域的双重分类体系,并整合了相关开源资源以推动未来研究。
请先 登录 后再提交论文
面向大语言模型的智能体强化学习研究全景:一项综述 / The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
这篇综述系统梳理了将大语言模型从被动文本生成器转变为能在复杂环境中自主决策的智能体的强化学习方法,提出了基于核心能力和应用领域的双重分类体系,并整合了相关开源资源以推动未来研究。
基于监督学习框架的隐式行动者评论家耦合强化学习可验证奖励方法 / Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
这篇论文提出了一种名为PACS的新方法,通过将强化学习中的可验证奖励问题转化为监督学习任务,巧妙地结合了行动者和评论家的角色,从而在数学推理等任务上实现了更稳定高效的训练和更优的性能表现。
SimpleTIR:面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
这篇论文提出了一种名为SimpleTIR的即插即用算法,通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练,从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。
基于工具增强的视觉感知强化学习 / Reinforced Visual Perception with Tools
本研究提出一种基于强化学习的视觉工具增强方法,通过训练多模态大模型自主调用四种视觉工具,在多个视觉推理基准测试中显著超越传统监督学习方法,有效提升了模型的视觉感知与推理能力。
VerlTool:面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
这篇论文提出了一个名为VerlTool的统一模块化框架,解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题,通过标准化工具管理、异步执行加速和模块化设计,在多个任务领域实现了高效且可扩展的智能体训练。
在游戏中思考:通过大型语言模型与强化学习学习游戏中的推理 / Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
这篇论文提出了一种名为TiG的新方法,通过将强化学习与大型语言模型结合,让AI在游戏中学会动态决策并解释自己的每一步行动,从而高效地弥合了理论知识与应用能力之间的差距。
PVPO:基于预估值驱动的策略优化用于智能体推理 / PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
本文提出了一种名为PVPO的新型强化学习方法,通过预采样数据和引入优势参考锚点来减少计算成本并避免策略陷入局部最优,在多个任务和模型规模上均实现了领先性能。
CODA:通过解耦强化学习协调大脑与小脑的双脑计算机使用代理 / CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
这篇论文提出了一个名为CODA的新型智能代理框架,它通过结合通用规划器和专业执行器的双脑协作方式,解决了科学计算等专业领域中图形界面自动化任务在长期规划和精确执行之间的平衡问题,并在实验中取得了领先的性能。
HERMES:基于多源人体运动数据的人机具身学习,用于移动灵巧操作 / HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation
这篇论文提出了一个名为HERMES的框架,能够将多种来源的人手动作转化为机器人的灵巧操作技能,并通过强化学习和视觉定位技术,让配备多指灵巧手的移动机器人在各种真实环境中自主完成复杂的双手操作任务。
Memory-R1:通过强化学习增强大语言模型代理以管理和利用记忆 / Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning
这篇论文提出了一个名为Memory-R1的强化学习框架,通过训练两个专门代理来主动管理和使用外部记忆,使大语言模型能够更有效地进行长期推理,仅需少量训练数据就能在多种任务上超越现有方法。