🤖 系统
09-12 14:28
📄 论文总结
基于熵调制的策略梯度:解决长视野任务中稀疏奖励挑战的新框架
Entropy-Modulated Policy Gradients: A New Framework for Sparse Reward Challenges in Long-Horizon Tasks
1️⃣ 一句话总结
本研究提出了熵调制策略梯度(EMPG)框架,通过动态调整学习信号和引入未来清晰度奖励,有效解决了长视野任务中稀疏奖励导致的训练低效和不稳定问题,在多个基准测试中显著提升了性能。
2️⃣ 论文创新点
1. 熵调制策略梯度(EMPG)
- 创新点是什么:一种基于步骤不确定性和最终任务结果重新校准学习信号的框架
- 与已有方法的区别/改进:解决了策略梯度大小与策略熵耦合的问题,放大自信正确动作的更新,惩罚自信错误,衰减不确定步骤的更新
- 为什么有意义:显著提升长视野任务性能,避免基线方法的性能平台期
2. 自校准梯度缩放
- 创新点是什么:基于步骤不确定性动态调整策略梯度的机制
- 与已有方法的区别/改进:为自信正确的动作放大更新,为不确定步骤衰减更新
- 为什么有意义:纠正有缺陷的梯度动态,提高学习效率和稳定性
3. 未来清晰度奖励
- 创新点是什么:优势函数中的额外奖励项,为导致后续状态不确定性降低的动作提供内在信号
- 与已有方法的区别/改进:鼓励智能体寻找更可预测的解决方案路径
- 为什么有意义:提高学习效率和解决方案的可预测性,引导智能体进行有目的的探索
4. 调制优势估计
- 创新点是什么:提出A_mod = A·g(H_t) + ζ·f(H_t+1),结合梯度缩放和未来清晰度奖励
- 与已有方法的区别/改进:将粗粒度的轨迹级优势信号转换为精细的步骤级学习信号
- 为什么有意义:提供更丰富和精确的学习信号,考虑不同步骤的贡献差异
3️⃣ 主要结果与价值
实验结果亮点
- 在ALFWorld任务上,EMPG+DAPO组合在Qwen2.5-1.5B模型上取得88.1%的整体成功率(提升7.3%)
- 在WebShop任务上,EMPG+DAPO在7B模型上达到82.7%成功率(提升3.1%)
- 在Deep Search任务中,整体性能提升3.3个百分点(Qwen2.5-32B)
- 解决了策略崩溃问题,通过自校准梯度缩放机制保持训练稳定性
实际应用价值
- 可作为基于策略梯度的增强模块,直接应用于GRPO和DAPO等基线方法
- 具有广泛的适用性和可扩展性,适用于不同RL算法、任务类型和模型规模
- 提高模型在不确定情况下的泛化能力,产生更鲁棒的策略
- 减少超参数需求,提供稳定性、自适应性和超参数减少
4️⃣ 术语表
- EMPG:熵调制策略梯度,通过熵值调制策略梯度更新来改善长视野智能体任务学习效果的框架
- 策略熵(Policy entropy):强化学习中的核心概念,用于平衡探索与利用的权衡
- H_t:步骤级熵,量化智能体在每个决策步骤的置信度,通过平均令牌级熵计算:H_t = -1/m Σ_j=1^m Σ_v∈V p(v|w_<j) log p(v|w_<j)
- PRMs:过程奖励模型,提供逐步反馈的过程奖励模型
- 策略梯度(policy gradient):策略梯度方法,通过梯度上升直接优化策略以最大化期望奖励目标
- PPO:近端策略优化,一种通过约束策略更新在信任区域内来确保训练稳定性的强化学习算法
- GRPO:组相对策略优化,一种通过批量比较计算优势估计来直接解决信用分配问题的算法
- DAPO:解耦剪辑和动态采样策略优化,一种强化学习训练方法,在实验中与EMPG结合取得最佳性能
- Deep Search:多步骤信息检索与合成任务评估基准,分为域内(ID)和域外(OOD)两类以评估泛化能力
- H_norm:归一化后的熵值,通过批量最小-最大缩放得到