📄 论文总结
夹逼策略梯度:一种针对扩散语言模型的强化学习算法 / Sandwiched Policy Gradient: A Reinforcement Learning Algorithm for Diffusion Language Models
1️⃣ 一句话总结
本文提出了一种名为夹逼策略梯度(SPG)的新型强化学习算法,通过结合证据下界(ELBO)和证据上界(EUBO)来优化扩散语言模型,在数学和逻辑推理任务上实现了显著的性能提升。
2️⃣ 论文创新点
1. 夹逼策略梯度(SPG)
- 创新点:针对扩散语言模型设计的新型强化学习算法,通过同时最大化正向奖励序列的ELBO和最小化负向奖励序列的EUBO来计算更稳健的策略梯度
- 区别/改进:解决了传统RL目标因依赖ELBO而要求奖励非负的限制,允许有效学习负反馈
- 意义:在数学和逻辑推理任务上实现了最先进的性能,显著提升了推理准确率
2. 证据上界(EUBO)
- 创新点:基于Rényi变分推导出的可处理证据上界,用于在SPG中惩罚负奖励样本
- 区别/改进:提供了ELBO之外的一个上界,使得最小化负奖励样本的对数似然成为可能
- 意义:与ELBO结合确保SPG目标是原始目标的有效下界,为优化提供理论保证
3. 块级掩码技术
- 创新点:将序列划分为块,选择随机块进行部分掩码,前后块分别保持清洁和全掩码
- 区别/改进:替代完全随机掩码,更好地对齐策略展开时的数据分布
- 意义:提高了目标估计稳定性和策略优化效率
4. 混合边界损失
- 创新点:结合EUBO和ELBO的混合损失函数,通过权重ω平衡两者
- 区别/改进:缓解纯EUBO估计的偏差和高计算成本问题
- 意义:提供更实用的负优势轨迹似然近似,增强训练稳定性
3️⃣ 主要结果与价值
结果亮点
- 在四个数学和逻辑推理基准测试(GSM8K、MATH500、Countdown和Sudoku)上相比现有RL算法取得显著提升
- 准确率分别提升3.6%、2.6%、18.4%和27.0%
- SPG w/ Mixture变体在所有任务和生成长度上均显著优于基线模型
- 在256生成长度下相对之前最优方法实现显著提升
实际价值
- 使扩散语言模型能够兼容使用相对或负奖励的高级RL算法
- 减少了最终策略的偏差,提高了模型推理的可靠性
- 为扩散语言模型的强化学习对齐提供了有效的技术框架
4️⃣ 术语表
- SPG:夹逼策略梯度,一种用于掩码扩散语言模型的策略梯度算法,结合ELBO和EUBO处理正负奖励
- MDLM:掩码扩散语言模型,通过连续时间掩码和去噪过程生成文本的扩散模型
- ELBO:证据下界,用于近似MDLM训练目标,在RL中也用来近似策略的对数似然
- EUBO:证据上界,用于扩散语言模型策略优化的损失函数,是真实对数似然的一个可处理上界
- 块级掩码:块级掩码策略,将序列分块并进行结构化掩码的策略
- LoRA:低秩适应,一种参数高效的微调方法,本实验中使用的秩r=128,缩放因子α=64
- dLLMs:扩散语言模型,使用掩码扩散目标训练的大规模语言模型
- GRPO:组相对策略优化,一种无需价值模型的强化学习算法
- β:证据上界估计中的关键超参数,控制上界的紧致程度,较小的值(接近1.0)通常带来更好的性能
- ω:混合系数,用于结合证据下界和上界,ω∈(0,1)时性能最优,形成倒U型性能曲线