🤖 系统
09-28 15:38
📄 论文总结
基于树搜索的分组相对策略优化方法
Tree-based Group Relative Policy Optimization
1️⃣ 一句话总结
提出了一种基于树搜索的强化学习方法Tree-GRPO,通过共享前缀减少采样成本,并利用树结构从结果奖励中构建过程监督信号,有效解决了多轮智能体强化学习中的稀疏监督和采样效率问题。
2️⃣ 论文创新点
1. 树搜索采样策略
- 创新点是什么:用树搜索过程替代传统的链式采样,将完整的Thought-Action-Observation步骤作为树节点单位,通过共享公共前缀减少token和工具调用成本
- 与已有方法的区别/改进:在相同预算下可获得约1.5倍的样本量,显著降低多轮代理RL训练成本
- 为什么有意义:解决了现有链式采样方法中的冗余问题,提高采样效率
2. 过程监督信号构建
- 创新点是什么:利用树结构轨迹从结果奖励中构建步骤级过程监督信号,通过回溯传播结果差异计算分支间差异
- 与已有方法的区别/改进:将轨迹级信号转化为过程级监督,提供中间决策学习信号
- 为什么有意义:使模型能够识别多轮交互中具体步骤的贡献,仅依赖结果奖励即可提供过程监督
3. 分组相对优势估计
- 创新点是什么:结合树内和树间分组进行优势估计,树内提供偏好学习信号,树间稳定基线估计
- 与已有方法的区别/改进:解决了仅使用内部树优势时训练不稳定的问题
- 为什么有意义:提高强化学习训练的稳定性和效率,实现更精确的信度分配
3️⃣ 主要结果与价值
实验结果亮点
- 在11个基准测试集上验证了方法优越性,涵盖多跳问答、单跳问答和网络代理问答三类任务
- 在3B以下模型上显著优于链式GRPO基线,相对改进达16%至69%,尤其对Qwen2.5-1.5b有效
- 在WebAgent QA任务中,即使使用仅四分之一rollout预算也能达到更好性能,多跳QA任务相对改进达112%
- 在GAIA数据集上平均改进28%,能有效激发小模型的多轮工具使用行为
实际应用价值
- 大幅降低了LLM代理RL训练的计算成本,仅用2个完整rollout预算就能实现显著性能提升
- 鼓励LLM代理进行更长的探索性交互(更多工具调用),提升复杂任务解决能力
- 具有可扩展性和即插即用特性,仅依赖结果奖励即可提供过程监督
4️⃣ 术语表
- Tree-GRPO:Tree-based Group Relative Policy Optimization,基于树搜索的分组相对策略优化方法,用于多轮智能体强化学习
- agent trajectories:智能体轨迹,指LLM智能体与环境进行多轮交互的决策序列
- ReAct:多轮代理框架,包含Thought-Action-Observation循环的交互模式
- MCTS:蒙特卡洛树搜索,用于构建离线DPO数据集和测试时扩展
- rollouts:在强化学习中指agent与环境交互的完整轨迹序列
- step-level DPO:步骤级直接偏好优化,在每一步进行偏好优化的方法
- Multi-Hop QA:多跳问答任务,需要模型进行多轮交互和工具调用以获取信息并回答问题
- Rollout Budget:每个提示的完整代理轨迹成本,用于衡量训练资源消耗
- A_intra-tree:内部树优势估计,在树结构内部进行的优势计算
- Reinforcement Learning:强化学习,用于提升大语言模型推理能力的方法
- Policy Optimization:策略优化,大语言模型训练中的关键优化技术