← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

rStar2-Agent：一种高效智能体强化学习方法用于数学推理

rStar2-Agent: An Efficient Agentic Reinforcement Learning Approach for Mathematical Reasoning

1️⃣ 一句话总结

rStar2-Agent是一个14B参数的数学推理模型，通过创新的智能体强化学习方法，结合高效的基础设施和GRPO-RoC算法，在有限计算资源下实现了前沿的数学推理性能。

2️⃣ 论文创新点

1. 高效RL基础设施

创新点是什么：构建了高吞吐量、隔离的代码执行环境，支持4.5万并发工具调用，大幅降低rollout成本
与已有方法的区别/改进：解决了代码工具带来的环境噪声问题，支持高并发执行
为什么有意义：大幅降低了智能体强化学习的计算成本，使中等规模模型训练可行

2. GRPO-RoC算法

创新点是什么：带有Resample-on-Correct策略的智能体RL算法，专门处理编码环境中的噪声问题
与已有方法的区别/改进：通过不对称采样处理环境噪声，保留高质量成功轨迹和多样化的失败模式
为什么有意义：提升了模型在代码环境中的推理效果和稳定性，避免奖励黑客风险

3. 高效智能体训练配方

创新点是什么：从非推理SFT开始，通过多阶段RL训练获得高级认知能力
与已有方法的区别/改进：最小化计算成本的同时获得先进认知能力，避免SFT过拟合
为什么有意义：在510步RL训练内将14B模型提升到SOTA水平，显著提高训练效率

4. 结构化工具调用接口

创新点是什么：使用标准化的JSON格式表示工具调用，提供清晰的API式接口
与已有方法的区别/改进：相比之前依赖markdown语法或自定义token的方法，减少了解析歧义，更具扩展性
为什么有意义：便于集成和未来扩展，支持多样化工具，与LLM API的函数调用协议对齐

3️⃣ 主要结果与价值

实验结果亮点

14B模型在数学推理上媲美或超越671B的DeepSeek-R1模型
在多个数学推理基准测试中取得优异性能，展现出良好的泛化能力
平均0.3秒返回执行反馈，最大化GPU利用率

实际应用价值

使中等规模模型在有限资源下实现先进推理能力成为可能
为智能体强化学习提供了可扩展的基础设施解决方案
简化了奖励设计，避免了复杂的人工调优

4️⃣ 术语表

rStar2-Agent：14B数学推理模型，通过智能体强化学习训练，在数学推理任务上达到前沿性能
GRPO-RoC：Group Relative Policy Optimization with Resampling on Correct，处理代码环境噪声的智能体RL算法
Multi-turn Rollout：与代码环境进行多轮交互的rollout过程，将执行结果纳入推理轨迹生成
Outcome-only Reward：纯结果奖励，一种奖励设计，仅根据最终结果的正确性（二元奖励）给予反馈，忽略中间过程
KV cache：键值缓存，用于在推理过程中存储注意力机制的键值对，影响GPU内存利用和推理效率

📄 打开原文 PDF