📄 论文总结
单流策略优化(SPO):一种高效且可扩展的大语言模型策略梯度优化方法
Single-stream Policy Optimization (SPO): An Efficient and Scalable Policy Gradient Optimization Method for Large Language Models
1️⃣ 一句话总结
本文提出单流策略优化(SPO)方法,通过消除组同步瓶颈、使用持久化KL自适应值跟踪器和全局批量优势归一化,解决了现有基于组的策略优化方法(如GRPO)在信号效率和可扩展性方面的关键缺陷。
2️⃣ 论文创新点
1. 单流策略优化(SPO)框架
- 创新点是什么:一种无需组同步的策略优化方法,取代了基于组的基线方法(如GRPO)。
- 与已有方法的区别/改进:使用持久的KL自适应值跟踪器替代每组基线,并在整个批次中全局归一化优势值。
- 为什么有意义:提供稳定、低方差的梯度信号,消除退化组的计算浪费,提高可扩展性。
2. 轻量级贝叶斯值跟踪器
- 创新点是什么:维护每个提示的持久、时间感知的成功概率估计。
- 与已有方法的区别/改进:作为低方差基线,替代噪声大的即时组基线。
- 为什么有意义:提供更稳定的基线估计,减少梯度方差。
3. 自适应折现因子机制
- 创新点是什么:通过KL散度动态调整折现因子ρ(x),控制值跟踪器的遗忘速率。
- 与已有方法的区别/改进:替代固定折现因子,使值估计能更快适应策略的显著变化。
- 为什么有意义:提高了值估计对策略变化的响应速度和稳定性。
4. 批量级别优势归一化
- 创新点是什么:在整个提示批次范围内对优势值进行归一化。
- 与已有方法的区别/改进:替代传统的按提示组归一化方法。
- 为什么有意义:简化了归一化过程并保持了梯度估计的无偏性。
5. 优先提示采样策略
- 创新点是什么:基于不确定性权重分配公式设计自适应课程,重点关-注学习潜力最高的提示。
- 与已有方法的区别/改进:相比GRPO的均匀采样,避免了已掌握或过难提示的计算浪费。
- 为什么有意义:构建自适应课程学习,显著提升训练数据效率。
6. 无组分布式架构
- 创新点是什么:采用单流(prompt, response)样本独立处理机制。
- 与已有方法的区别/改进:消除GRPO所需的组同步屏障,避免长尾生成时间导致的整体延迟。
- 为什么有意义:提升分布式训练可扩展性,特别适合多轮工具交互和长序列智能体场景。
3️⃣ 主要结果与价值
实验结果亮点
- 在多个数学推理基准(AIME 24/25, BeyondAIME, BRUMO 25, HMMT 25)上,SPO在maj@32和avg@32指标上整体优于GRPO,特别是在BRUMO 25上优势最明显(+7.3个百分点)。
- SPO的有效样本比例显著高于GRPO(远低于GRPO的60-80%),且优势方差降低约50%,提供了更稳定、低方差的梯度信号。
- 在模拟实验中,SPO实现了4.35倍的加速,显著提高了在复杂、长视野智能体任务训练中的吞吐量和可扩展性。
实际应用价值
- SPO的无组设计消除了同步瓶颈,特别适用于涉及多轮工具使用或长程推理的智能体场景,其中响应时间变化很大。
- 该方法提高了训练效率,减少了计算资源浪费,使大规模语言模型的强化学习训练更加可行和经济。
- 优先采样机制确保模型专注于最具信息量的提示,从而更快地收敛并提高最终性能。
4️⃣ 术语表
- SPO:单流策略优化(Single-stream Policy Optimization),一种无需组同步的策略优化方法,使用自适应值跟踪器和批量级别优势归一化。
- GRPO:组策略优化(Group-based Policy Optimization),基于小组样本计算优势的方法,可能导致高方差和同步瓶颈。
- RLVR:具有可验证反馈的强化学习(Reinforcement Learning with Verifiable Feedback),智能体获得其行动正确性的二元反馈的环境。
- maj@k:基于k个响应中多数投票答案的正确性的指标,取最频繁出现的答案作为最终答案,正确则得分为1,否则为0。
- pass@k:在k次尝试内解决问题的概率的无偏估计指标,通过生成n≥k个响应并计算正确数量c来估计,公式为1 - (n-c choose k)/(n choose k)。
- 瓶颈效应:在基于组的采样中,慢速轨迹导致整个组必须等待的现象。
- 退化组:所有响应结果相同的组(零优势样本),会消除学习信号。
- KL散度:Kullback-Leibler散度,衡量两个概率分布差异的指标,在SPO中用于动态调整折现因子。