🤖 系统
09-15 14:28
📄 论文总结
修复引导的策略优化:一种针对扩散大语言模型的强化学习对齐方法
Inpainting-Guided Policy Optimization: A Reinforcement Learning Alignment Method for Diffusion Large Language Models
1️⃣ 一句话总结
本文提出IGPO(修复引导的策略优化)方法,利用扩散大语言模型的修复能力,在强化学习过程中注入部分真实推理提示来引导模型生成正确响应,有效解决了零优势困境和训练效率问题,在数学推理任务上实现了最先进的性能。
2️⃣ 论文创新点
1. IGPO框架
- 创新点是什么:首个利用扩散大语言模型修复能力进行强化学习的方法,通过在生成过程中注入真实推理片段作为固定提示,引导模型完成剩余部分的生成
- 与已有方法的区别/改进:解决了传统RL方法在挑战性任务中探索困难、样本浪费严重的问题,特别是当所有响应都错误导致优势为零时的策略梯度消失问题
- 为什么有意义:恢复了非退化梯度信号,加速收敛,提高了RL训练效率,在数学推理基准上达到SOTA性能
2. 弹性修复触发采样
- 创新点是什么:自适应采样策略,仅在检测到当前所有采样响应均错误(零优势情况)时,才触发基于提示注入的修复生成过程
- 与已有方法的区别/改进:动态地、按需地引入真实知识提示,避免了在每次训练中都进行提示注入的计算开销
- 为什么有意义:实现了计算资源与训练效果的良好平衡,确保了训练信号的多样性,是IGPO方法高效性的关键
3. 长度对齐监督微调
- 创新点是什么:使用重写的简洁推理轨迹进行专门训练,确保训练分布与下游RL/评估阶段的一致性
- 与已有方法的区别/改进:将冗长的推理轨迹改写为简洁、结构化的版本,消除冗余反思并将多句子阐述压缩为精确的数学严谨陈述
- 为什么有意义:为RL学习提供了更好的初始化,减少分布不匹配,并避免了冗长数据集中不适合有限上下文生成的重复杂反思行为
3️⃣ 主要结果与价值
实验结果亮点
- 在GSM8K、MATH500和AMC三个数学基准上分别取得2.1%、3.8%和3.8%的绝对提升
- 两阶段训练流程(长度对齐SFT + IGPO)在GSM8K上达到86.4%,MATH500上达到47.4%,AMC上达到24.4%
- 相比基线方法累计提升4.9%-9.9%,在所有评估基准上都超过了包括LLaDA-1.5在内的所有基线方法
实际应用价值
- 为扩散语言模型的强化学习对齐提供了新范式,解决了训练中的零优势困境
- 显著提高了数学推理任务的性能,为教育技术和自动解题系统提供了更可靠的解决方案
- 提出的长度对齐方法解决了训练、采样和评估阶段之间的序列长度不匹配问题,提高了训练稳定性
4️⃣ 术语表
- dLLMs:扩散大语言模型,通过并行迭代去掩码生成文本,具有双向注意力和修复能力
- inpainting:修复操作,能够在现有文本中填充缺失内容,为生成过程提供条件提示
- IGPO:修复引导的策略优化,一种针对掩码扩散大语言模型的强化学习对齐方法
- GRPO:组相对策略优化,基于群体的策略优化方法,使用群体统计进行优势估计
- masked dLLM:掩码扩散大语言模型,采用掩码和去噪方式进行文本生成的扩散模型
- Entropy-based Gradient Filtering:基于熵的梯度过滤策略,仅对模型不确定性高的令牌位置进行梯度更新以提高训练稳定性
- Length-Aligned SFT:长度对齐的监督微调,通过重写轨迹来改进模型性能的专门训练方法
- Diffusion Language Models:基于扩散过程的语言生成模型,通过逐步去噪生成文本