📄 论文总结
基于监督学习的可验证奖励强化学习框架PACS
PACS: A Supervised Learning Framework for Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
PACS是一种新型强化学习框架,通过将可验证奖励问题重构为监督学习任务,使用交叉熵损失直接优化策略,实现了隐式Actor-Critic耦合,在数学推理任务上显著优于传统PPO和GRPO方法。
2️⃣ 论文创新点
1. 监督学习重构
- 创新点是什么:将RLVR问题重新表述为监督学习分类任务,使用结果奖励作为预测标签,避免了传统RL中的稀疏奖励和不稳定梯度更新问题
- 与已有方法的区别/改进:替代了基于稀疏结果奖励的传统RL方法,直接使用结果奖励作为监督信号
- 为什么有意义:实现了策略学习和奖励估计的统一,提高了训练效率和稳定性
2. 隐式Actor-Critic耦合
- 创新点是什么:通过共享参数化同时更新策略改进和奖励估计组件,在单一策略模型中实现ACTOR(采样输出)和CRITIC(评估质量)功能
- 与已有方法的区别/改进:无需单独网络或交替更新计划,实现了更紧密的耦合,消除了奖励估计与策略更新时间不匹配
- 为什么有意义:统一了策略梯度和监督学习范式,提供了更稳定可靠的学习信号
3. RLOO优势估计器
- 创新点是什么:使用REINFORCE Leave-One-Out估计器计算相对优势,通过批量内样本比较提供无偏估计
- 与已有方法的区别/改进:相比传统方法,实现了高效计算和最小实现开销,通过缩放超参数β控制奖励规模
- 为什么有意义:为直接策略优化提供了有效的优势函数计算方式
4. 训练稳定性机制
- 创新点是什么:采用定期硬重置参考策略为当前策略快照,并重新初始化优化器状态,处理类别不平衡问题
- 与已有方法的区别/改进:解决了固定参考策略导致的奖励代理值增长和高方差问题,通过差异权重分配方法处理正确和错误样本的不平衡分布
- 为什么有意义:确保了训练过程的稳定性和收敛性,提高了模型在各种数据分布条件下的学习效果
3️⃣ 主要结果与价值
实验结果亮点
- 在MATH 500数据集上pass@1达到67.31%,比基础模型提升10.65个百分点
- 在AIME 2024的pass@256指标上比PPO和GRPO分别提升13.32和14.36个百分点
- 在多个数学推理任务上全面超越PPO和GRPO等强化学习方法
- 权重组件在复杂数学推理任务中起到关键作用,在AIME 2024数据集上带来6.36%的性能提升
实际应用价值
- 为数学推理和可验证正确性领域提供了更稳定高效的训练方法
- 避免了传统RL方法中的价值函数建模计算开销和蒙特卡洛方法的高方差问题
- 适用于需要生成多样正确解的复杂推理任务场景
- 通过自适应采样策略确保不同规模数据集都能获得高置信度的性能指标
4️⃣ 术语表
- RLVR:强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards),使用可验证奖励的强化学习,用于数学推理等可验证正确性的领域
- PACS:隐式行动者评论者耦合的监督学习框架,通过将结果奖励作为可预测标签来重新表述RLVR问题
- pass@k:评估指标,表示在k个生成候选解中至少存在一个正确答案的概率,用于衡量模型生成多样正确解的能力
- RLOO:REINFORCE Leave-One-Out估计器,用于高效计算相对优势的无偏估计器
- DeepScaleR:高质量数学问题解决数据集,包含约40,000个独特数学问题-答案对,用作训练语料
- AIME:高难度数学推理评估数据集,包括2024和2025两个版本