🤖 系统
09-03 11:21
📄 论文总结
基于预估值策略优化的免评论家强化学习方法
Pre-estimated Value-based Policy Optimization for Critic-free Reinforcement Learning
1️⃣ 一句话总结
PVPO是一种创新的免评论家强化学习算法,通过引入静态V估计作为外部优势参考和组采样数据过滤技术,有效解决了传统方法中的局部最优和高计算成本问题,在多项任务中实现了最先进性能。
2️⃣ 论文创新点
1. 静态V估计机制
- 创新点是什么:使用固定参考策略的期望回报作为稳定的价值函数基线,替代传统的动态V估计
- 与已有方法的区别/改进:解决了因策略迭代和采样波动导致的不稳定性问题,减少策略更新所需的rollout次数
- 为什么有意义:为稀疏奖励环境下的策略优化提供了更稳定的基准线,显著降低计算成本并加速收敛
2. 组采样数据过滤技术
- 创新点是什么:根据样本平均准确率将样本分为三类进行差异化处理,过滤简单样本并为复杂样本提供参考轨迹
- 与已有方法的区别/改进:排除过于简单的样本,为准确率为0的复杂样本提供由更大LLM生成的参考轨迹(GT Traj)
- 为什么有意义:有效缓解稀疏奖励问题,加速模型在复杂样本上的学习过程,提高训练稳定性
3. 优势函数解耦设计
- 创新点是什么:将实际回报Q和优势基线V分离设计,使V独立于当前和先前策略
- 与已有方法的区别/改进:结合动态Q估计与静态V估计,减少方差波动
- 为什么有意义:在严重奖励稀疏情况下仍能提供稳定学习信号,无需大量rollout
3️⃣ 主要结果与价值
实验结果亮点
- 在多跳问答任务中相比GRPO平均提升超过5个百分点
- 在数学推理任务上7B和14B模型均优于GRPO,准确率分别提升1.89和1.24个百分点
- 训练效率提升1.7-2.5倍,仅用40%的计算成本达到GRPO 97%的性能
实际应用价值
- 适用于所有稀疏奖励场景,提供更可靠的优势估计
- 在有限资源和小规模模型下表现优异,展现良好的通用性和迁移性
- 显著降低训练时间消耗,额外开销远小于保留低价值样本的训练成本
4️⃣ 术语表
- PVPO:基于预估值策略优化的免评论家强化学习方法,通过参考模型计算任务奖励作为锚点,解耦Q和V的优势计算
- 静态V估计:使用固定参考策略的期望回报作为稳定的价值函数估计,替代传统的动态V估计
- 参考模型(Ref):用于运行分组推理并计算任务奖励得分的参考模型,作为RL训练中的V估计锚点
- 组采样:根据样本准确率将样本分为三类进行差异化处理的方法
- GT Traj:由更大LLM生成的参考轨迹,用于指导模型学习
- PPO:近端策略优化算法
- GRPO:使用token-mean损失聚合模式的对比基线方法