📄 论文总结
基于信息增益的策略优化方法 / Information Gain-based Policy Optimization
1️⃣ 一句话总结
IGPO是一种针对多轮LLM智能体训练的强化学习框架,通过将每轮交互建模为获取真实答案信息增量的过程,提供密集的内在监督信号,解决了传统方法中的优势崩溃和细粒度信用分配问题。
2️⃣ 论文创新点
1. 信息增益策略优化框架
- 创新点:一种简单有效的强化学习框架,为多轮智能体训练提供密集内在监督
- 区别/改进:通过模型自身信念更新直接推导内在奖励,替代依赖外部奖励模型或蒙特卡洛估计的方法
- 意义:解决了多轮场景中的优势崩溃问题和细粒度信用分配问题,提高了准确性和样本效率
2. 轮级优势估计机制
- 创新点:通过组内归一化和折扣累积优势计算,实现轮级优势估计
- 区别/改进:改进了传统方法依赖外部知识或高方差估计的问题
- 意义:能够捕捉长视野依赖关系,稳定训练过程
3. 决策令牌优化技术
- 创新点:仅对决策令牌(推理、工具调用和答案)进行梯度更新,屏蔽原始工具响应
- 区别/改进:选择性优化关键决策点
- 意义:提高训练效率和策略质量
3️⃣ 主要结果与价值
结果亮点
- 在七个数据集上取得最佳性能,平均得分58.7,显著优于所有基线方法
- 在3B小模型上改进尤为显著(+15.3分),证明对资源受限模型特别有效
- 展示更快更稳定的学习动态,收敛至更高F1分数
- 实现更大的真实答案召回率和更高的token效率
实际价值
- 缓解奖励稀疏性问题,确保每个样本都对学习有贡献
- 提供密集可靠的训练指导,即使在没有完整正确答案的情况下
- 特别适合代理强化学习场景,因为训练数据稀缺且昂贵
- 在领域内和领域外数据集上均实现稳健性能提升
4️⃣ 术语表
- IGPO:基于信息增益的策略优化方法,结合步骤级信息增益奖励和结果奖励
- 优势崩溃:当所有rollout获得相同奖励时,归一化优势接近零,导致缺乏学习信号的现象
- 信息增益:用于评估每一步信息获取量的指标,作为步骤级奖励信号
- GRPO:分组相对策略优化,IGPO的对比基线方法
- 多轮场景:涉及多次交互的智能体任务环境,其中稀疏奖励问题尤为突出
- RAG:检索增强生成,结合检索系统和生成模型的技术
- 多跳QA:多跳问答,需要多步推理才能回答的复杂问题