🤖 系统
09-07 15:38
📄 论文总结
统一后训练:大型语言模型监督微调与强化学习的统一视角
Unify Post-Training: A Unified View of Supervised Fine-Tuning and Reinforcement Learning for Large Language Models
1️⃣ 一句话总结
本文提出了统一策略梯度估计器(UPGE)框架,将监督微调(SFT)和强化学习(RL)的后训练方法统一到一个优化目标中,并基于此开发了混合后训练(HPT)算法,能够动态选择训练信号,在多个数学推理基准上实现了最先进的性能。
2️⃣ 论文创新点
1. 统一策略梯度估计器(UPGE)
- 创新点是什么:将SFT和RL的梯度计算统一到一个理论框架中,通过四个可互换组件(稳定化掩码、参考策略分母、优势估计和似然梯度)实现数学上的一致性
- 与已有方法的区别/改进:解决了传统方法中SFT和RL目标冲突的问题,揭示了不同学习方法在梯度计算上的内在联系
- 为什么有意义:为后训练过程提供了统一的理论基础,允许SFT和RL在单一损失函数中联合优化
2. 混合后训练(HPT)算法
- 创新点是什么:基于UPGE框架的自适应训练算法,根据模型实时采样性能动态调整SFT和RL损失的权重比例
- 与已有方法的区别/改进:通过性能反馈机制实现训练信号的智能切换,取代了固定权重或顺序管道的传统方法
- 为什么有意义:在多个模型和数据集上显著提升性能,实现了探索与利用的最佳平衡
3️⃣ 主要结果与价值
实验结果亮点
- 在AIME 24、AIME 25和AMC等多个数学推理基准测试中取得了最佳性能
- 在Qwen和LLaMA系列模型上均表现出优越性,超越了SFT、GRPO、LUFFY等基线方法
- 自适应门控机制有效解决了不同复杂度数据和不同能力模型的训练信号选择问题
实际应用价值
- 提供了一种通用的后训练框架,可应用于各种LLM和任务领域
- 减少了超参数调优的复杂性,通过自适应机制自动优化训练过程
- 为工业级大模型训练提供了更高效稳定的解决方案
4️⃣ 术语表
- Unified Policy Gradient Estimator (UPGE):统一策略梯度估计器,将不同后训练方法的梯度计算统一到一个框架中,包含四个可互换组件
- Hybrid Post-Training (HPT):混合后训练算法,基于UPGE框架动态选择SFT和RL训练信号的自适应方法
- Stabilization Mask:稳定化掩码,用于解决RL训练中的不稳定性问题,当当前迭代被认为不安全时关闭梯度
- Advantage Estimate:优势估计,在LLM上下文中多为序列级而非令牌级,衡量当前响应序列的质量
- π_ref:参考策略,用于梯度计算中的重要性采样权重分配,根据数据来源和采样策略设置
- GRPO:一种在线强化学习算法,使用裁剪的重要性采样和标准化优势