← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm agents
详细标签: mathematical reasoning reinforcement learning tool usage code execution efficient training 或 搜索:

📄 论文总结

rStar2-Agent:一种高效智能体强化学习方法用于数学推理

rStar2-Agent: An Efficient Agentic Reinforcement Learning Approach for Mathematical Reasoning


1️⃣ 一句话总结

rStar2-Agent是一个14B参数的数学推理模型,通过创新的智能体强化学习方法,结合高效的基础设施和GRPO-RoC算法,在有限计算资源下实现了前沿的数学推理性能。


2️⃣ 论文创新点

1. 高效RL基础设施

2. GRPO-RoC算法

3. 高效智能体训练配方

4. 结构化工具调用接口


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF