← 返回列表

🤖 系统

📄 Abstract - Sandwiched Policy Gradient: A Reinforcement Learning Algorithm for Diffusion Language Models

⏳ 正在获取摘要...

📄 论文总结

夹逼策略梯度：一种针对扩散语言模型的强化学习算法 / Sandwiched Policy Gradient: A Reinforcement Learning Algorithm for Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为夹逼策略梯度(SPG)的新型强化学习算法，通过结合证据下界(ELBO)和证据上界(EUBO)来优化扩散语言模型，在数学和逻辑推理任务上实现了显著的性能提升。

2️⃣ 论文创新点

1. 夹逼策略梯度(SPG)

创新点：针对扩散语言模型设计的新型强化学习算法，通过同时最大化正向奖励序列的ELBO和最小化负向奖励序列的EUBO来计算更稳健的策略梯度
区别/改进：解决了传统RL目标因依赖ELBO而要求奖励非负的限制，允许有效学习负反馈
意义：在数学和逻辑推理任务上实现了最先进的性能，显著提升了推理准确率

2. 证据上界(EUBO)

创新点：基于Rényi变分推导出的可处理证据上界，用于在SPG中惩罚负奖励样本
区别/改进：提供了ELBO之外的一个上界，使得最小化负奖励样本的对数似然成为可能
意义：与ELBO结合确保SPG目标是原始目标的有效下界，为优化提供理论保证

3. 块级掩码技术

创新点：将序列划分为块，选择随机块进行部分掩码，前后块分别保持清洁和全掩码
区别/改进：替代完全随机掩码，更好地对齐策略展开时的数据分布
意义：提高了目标估计稳定性和策略优化效率

4. 混合边界损失

创新点：结合EUBO和ELBO的混合损失函数，通过权重ω平衡两者
区别/改进：缓解纯EUBO估计的偏差和高计算成本问题
意义：提供更实用的负优势轨迹似然近似，增强训练稳定性

3️⃣ 主要结果与价值

结果亮点

在四个数学和逻辑推理基准测试(GSM8K、MATH500、Countdown和Sudoku)上相比现有RL算法取得显著提升
准确率分别提升3.6%、2.6%、18.4%和27.0%
SPG w/ Mixture变体在所有任务和生成长度上均显著优于基线模型
在256生成长度下相对之前最优方法实现显著提升

实际价值

使扩散语言模型能够兼容使用相对或负奖励的高级RL算法
减少了最终策略的偏差，提高了模型推理的可靠性
为扩散语言模型的强化学习对齐提供了有效的技术框架

4️⃣ 术语表

SPG：夹逼策略梯度，一种用于掩码扩散语言模型的策略梯度算法，结合ELBO和EUBO处理正负奖励
MDLM：掩码扩散语言模型，通过连续时间掩码和去噪过程生成文本的扩散模型
ELBO：证据下界，用于近似MDLM训练目标，在RL中也用来近似策略的对数似然
EUBO：证据上界，用于扩散语言模型策略优化的损失函数，是真实对数似然的一个可处理上界
块级掩码：块级掩码策略，将序列分块并进行结构化掩码的策略
LoRA：低秩适应，一种参数高效的微调方法，本实验中使用的秩r=128，缩放因子α=64
dLLMs：扩散语言模型，使用掩码扩散目标训练的大规模语言模型
GRPO：组相对策略优化，一种无需价值模型的强化学习算法
β：证据上界估计中的关键超参数，控制上界的紧致程度，较小的值(接近1.0)通常带来更好的性能
ω：混合系数，用于结合证据下界和上界，ω∈(0,1)时性能最优，形成倒U型性能曲线

📄 打开原文 PDF