📄 论文总结
智能体推理中的强化学习:数据、算法与推理模式的系统分析 / Reinforcement Learning for Agentic Reasoning: A Systematic Analysis of Data, Algorithms, and Reasoning Modes
1️⃣ 一句话总结
本研究系统分析了强化学习在智能体推理中的应用,提出了基于真实端到端工具使用轨迹的数据方法、改进的GRPO算法和审慎推理模式,使较小模型(如4B)在复杂推理任务中达到与较大模型(如32B)相当的性能。
2️⃣ 论文创新点
1. 真实端到端工具使用轨迹数据
- 创新点:使用真实端到端工具使用轨迹替代拼接合成轨迹作为监督微调的初始化数据
- 区别/改进:解决了拼接式数据合成中推理与工具使用自然连接缺失的问题
- 意义:提供更强的SFT初始化,显著提升强化学习性能
2. GRPO-TCR算法改进
- 创新点:结合clip higher裁剪策略和过长奖励塑造技术的GRPO变体
- 区别/改进:相比基础GRPO-T,在AIME2024/2025基准上取得显著性能提升
- 意义:在450步训练内达到70.93%/68.13%的平均@32性能,有效提升智能体推理性能和强化学习效率
3. 审慎推理模式
- 创新点:采用深度思考后针对性工具调用的策略,而非频繁工具调用或冗长自我推理
- 区别/改进:工具调用成功率超过70%,遵循质量优于数量的原则
- 意义:提高工具使用效率和最终准确性,为优化智能体决策效率提供理论框架
4. 模型感知数据集
- 创新点:根据模型能力调整任务分布的数据集构建方法
- 区别/改进:解决了能力-难度不匹配问题,为较弱模型提供更合适的训练信号
- 意义:显著提升强化训练的效果和稳定性,突破了性能瓶颈
3️⃣ 主要结果与价值
结果亮点
- 真实轨迹训练在AIME2025上使average@32从3.65%提升至29.79%,pass@32从22.22%提升至72.88%
- GRPO-TCR在AIME2024/2025上达到70.93%/68.13%的准确率,仅用450步训练和25%计算量就超越了GRPO-T的最佳性能
- Token级损失聚合相比序列级损失在收敛速度和峰值准确率上均有提升(AIME24/25分别超出3.95%和3.86%)
实际价值
- 使较小模型(4B)在智能体推理任务中达到与较大模型(32B)相当的性能,降低了部署成本
- 为智能体推理的强化学习提供了系统的方法论和有效的基准参考
- 揭示了智能体强化学习中探索-利用动态的新特性,支持甚至放大探索行为
4️⃣ 术语表
- agentic reasoning:智能体推理,使大语言模型能够超越自我生成,在推理过程中整合外部工具
- GRPO:广义强化策略优化算法,一种强化学习优化方法,通过组合策略优化和参考策略约束来训练基于LLM的智能体
- AIME:AI数学奥林匹克数据集,用于评估数学推理能力的基准测试,包含2024和2025两个版本
- average@32:整体代理性能评估指标
- GRPO-TCR:GRPO算法的变体,结合了clip higher和过长奖励塑造技术,以提升推理性能和训练效率
- token-level loss:损失聚合的一种粒度级别,确保每个token对优化信号有平等贡献,常用于提升模型训练效率和推理能力
- Deliberative Mode:审慎模式,特征为深思熟虑的推理和较少的工具调用,工具调用成功率高
- Long-CoT:长思维链模型,具有扩展内部推理能力的大语言模型