🤖 系统
11-30 17:39
📄 论文总结
SPG:面向掩码扩散语言模型的三明治策略梯度方法 / SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
1️⃣ 一句话总结
本文提出了一种名为三明治策略梯度(SPG)的新方法,通过同时利用对数似然的上界和下界来减少策略梯度偏差,从而更有效地训练扩散大语言模型以符合人类偏好或任务奖励,在多个推理任务上显著超越了现有强化学习方法。