2509.21240 – Summary

📄 论文总结

基于树搜索的分组相对策略优化方法

Tree-based Group Relative Policy Optimization

提出了一种基于树搜索的强化学习方法Tree-GRPO，通过共享前缀减少采样成本，并利用树结构从结果奖励中构建过程监督信号，有效解决了多轮智能体强化学习中的稀疏监督和采样效率问题。

创新点是什么：用树搜索过程替代传统的链式采样，将完整的Thought-Action-Observation步骤作为树节点单位，通过共享公共前缀减少token和工具调用成本
与已有方法的区别/改进：在相同预算下可获得约1.5倍的样本量，显著降低多轮代理RL训练成本
为什么有意义：解决了现有链式采样方法中的冗余问题，提高采样效率

Tree-GRPO：Tree-based Group Relative Policy Optimization，基于树搜索的分组相对策略优化方法，用于多轮智能体强化学习
agent trajectories：智能体轨迹，指LLM智能体与环境进行多轮交互的决策序列
ReAct：多轮代理框架，包含Thought-Action-Observation循环的交互模式
MCTS：蒙特卡洛树搜索，用于构建离线DPO数据集和测试时扩展
rollouts：在强化学习中指agent与环境交互的完整轨迹序列
step-level DPO：步骤级直接偏好优化，在每一步进行偏好优化的方法
Multi-Hop QA：多跳问答任务，需要模型进行多轮交互和工具调用以获取信息并回答问题
Rollout Budget：每个提示的完整代理轨迹成本，用于衡量训练资源消耗
A_intra-tree：内部树优势估计，在树结构内部进行的优势计算
Reinforcement Learning：强化学习，用于提升大语言模型推理能力的方法
Policy Optimization：策略优化，大语言模型训练中的关键优化技术