← 返回列表

🤖 系统

📄 Abstract - Information Gain-based Policy Optimization

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

基于信息增益的策略优化方法 / Information Gain-based Policy Optimization

1️⃣ 一句话总结

IGPO是一种针对多轮LLM智能体训练的强化学习框架，通过将每轮交互建模为获取真实答案信息增量的过程，提供密集的内在监督信号，解决了传统方法中的优势崩溃和细粒度信用分配问题。

2️⃣ 论文创新点

1. 信息增益策略优化框架

创新点：一种简单有效的强化学习框架，为多轮智能体训练提供密集内在监督
区别/改进：通过模型自身信念更新直接推导内在奖励，替代依赖外部奖励模型或蒙特卡洛估计的方法
意义：解决了多轮场景中的优势崩溃问题和细粒度信用分配问题，提高了准确性和样本效率

2. 轮级优势估计机制

创新点：通过组内归一化和折扣累积优势计算，实现轮级优势估计
区别/改进：改进了传统方法依赖外部知识或高方差估计的问题
意义：能够捕捉长视野依赖关系，稳定训练过程

3. 决策令牌优化技术

创新点：仅对决策令牌（推理、工具调用和答案）进行梯度更新，屏蔽原始工具响应
区别/改进：选择性优化关键决策点
意义：提高训练效率和策略质量

3️⃣ 主要结果与价值

结果亮点

在七个数据集上取得最佳性能，平均得分58.7，显著优于所有基线方法
在3B小模型上改进尤为显著（+15.3分），证明对资源受限模型特别有效
展示更快更稳定的学习动态，收敛至更高F1分数
实现更大的真实答案召回率和更高的token效率

实际价值

缓解奖励稀疏性问题，确保每个样本都对学习有贡献
提供密集可靠的训练指导，即使在没有完整正确答案的情况下
特别适合代理强化学习场景，因为训练数据稀缺且昂贵
在领域内和领域外数据集上均实现稳健性能提升

4️⃣ 术语表

IGPO：基于信息增益的策略优化方法，结合步骤级信息增益奖励和结果奖励
优势崩溃：当所有rollout获得相同奖励时，归一化优势接近零，导致缺乏学习信号的现象
信息增益：用于评估每一步信息获取量的指标，作为步骤级奖励信号
GRPO：分组相对策略优化，IGPO的对比基线方法
多轮场景：涉及多次交互的智能体任务环境，其中稀疏奖励问题尤为突出
RAG：检索增强生成，结合检索系统和生成模型的技术
多跳QA：多跳问答，需要多步推理才能回答的复杂问题

📄 打开原文 PDF