← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: agents

📄 论文总结

基于预估值策略优化的免评论家强化学习方法

Pre-estimated Value-based Policy Optimization for Critic-free Reinforcement Learning

1️⃣ 一句话总结

PVPO是一种创新的免评论家强化学习算法，通过引入静态V估计作为外部优势参考和组采样数据过滤技术，有效解决了传统方法中的局部最优和高计算成本问题，在多项任务中实现了最先进性能。

2️⃣ 论文创新点

1. 静态V估计机制

创新点是什么：使用固定参考策略的期望回报作为稳定的价值函数基线，替代传统的动态V估计
与已有方法的区别/改进：解决了因策略迭代和采样波动导致的不稳定性问题，减少策略更新所需的rollout次数
为什么有意义：为稀疏奖励环境下的策略优化提供了更稳定的基准线，显著降低计算成本并加速收敛

2. 组采样数据过滤技术

创新点是什么：根据样本平均准确率将样本分为三类进行差异化处理，过滤简单样本并为复杂样本提供参考轨迹
与已有方法的区别/改进：排除过于简单的样本，为准确率为0的复杂样本提供由更大LLM生成的参考轨迹(GT Traj)
为什么有意义：有效缓解稀疏奖励问题，加速模型在复杂样本上的学习过程，提高训练稳定性

3. 优势函数解耦设计

创新点是什么：将实际回报Q和优势基线V分离设计，使V独立于当前和先前策略
与已有方法的区别/改进：结合动态Q估计与静态V估计，减少方差波动
为什么有意义：在严重奖励稀疏情况下仍能提供稳定学习信号，无需大量rollout

3️⃣ 主要结果与价值

实验结果亮点

在多跳问答任务中相比GRPO平均提升超过5个百分点
在数学推理任务上7B和14B模型均优于GRPO，准确率分别提升1.89和1.24个百分点
训练效率提升1.7-2.5倍，仅用40%的计算成本达到GRPO 97%的性能

实际应用价值

适用于所有稀疏奖励场景，提供更可靠的优势估计
在有限资源和小规模模型下表现优异，展现良好的通用性和迁移性
显著降低训练时间消耗，额外开销远小于保留低价值样本的训练成本

4️⃣ 术语表

PVPO：基于预估值策略优化的免评论家强化学习方法，通过参考模型计算任务奖励作为锚点，解耦Q和V的优势计算
静态V估计：使用固定参考策略的期望回报作为稳定的价值函数估计，替代传统的动态V估计
参考模型(Ref)：用于运行分组推理并计算任务奖励得分的参考模型，作为RL训练中的V估计锚点
组采样：根据样本准确率将样本分为三类进行差异化处理的方法
GT Traj：由更大LLM生成的参考轨迹，用于指导模型学习
PPO：近端策略优化算法
GRPO：使用token-mean损失聚合模式的对比基线方法

📄 打开原文 PDF