2509.10396 – Summary

📄 Abstract - Inpainting-Guided Policy Optimization: A Reinforcement Learning Alignment Method for Diffusion Large Language Models

⏳ 正在获取摘要...

📄 论文总结

修复引导的策略优化：一种针对扩散大语言模型的强化学习对齐方法

Inpainting-Guided Policy Optimization: A Reinforcement Learning Alignment Method for Diffusion Large Language Models

1️⃣ 一句话总结

本文提出IGPO（修复引导的策略优化）方法，利用扩散大语言模型的修复能力，在强化学习过程中注入部分真实推理提示来引导模型生成正确响应，有效解决了零优势困境和训练效率问题，在数学推理任务上实现了最先进的性能。

2️⃣ 论文创新点

1. IGPO框架

创新点是什么：首个利用扩散大语言模型修复能力进行强化学习的方法，通过在生成过程中注入真实推理片段作为固定提示，引导模型完成剩余部分的生成
与已有方法的区别/改进：解决了传统RL方法在挑战性任务中探索困难、样本浪费严重的问题，特别是当所有响应都错误导致优势为零时的策略梯度消失问题
为什么有意义：恢复了非退化梯度信号，加速收敛，提高了RL训练效率，在数学推理基准上达到SOTA性能

2. 弹性修复触发采样

创新点是什么：自适应采样策略，仅在检测到当前所有采样响应均错误（零优势情况）时，才触发基于提示注入的修复生成过程
与已有方法的区别/改进：动态地、按需地引入真实知识提示，避免了在每次训练中都进行提示注入的计算开销
为什么有意义：实现了计算资源与训练效果的良好平衡，确保了训练信号的多样性，是IGPO方法高效性的关键

3. 长度对齐监督微调

创新点是什么：使用重写的简洁推理轨迹进行专门训练，确保训练分布与下游RL/评估阶段的一致性
与已有方法的区别/改进：将冗长的推理轨迹改写为简洁、结构化的版本，消除冗余反思并将多句子阐述压缩为精确的数学严谨陈述
为什么有意义：为RL学习提供了更好的初始化，减少分布不匹配，并避免了冗长数据集中不适合有限上下文生成的重复杂反思行为

3️⃣ 主要结果与价值

实验结果亮点

在GSM8K、MATH500和AMC三个数学基准上分别取得2.1%、3.8%和3.8%的绝对提升
两阶段训练流程（长度对齐SFT + IGPO）在GSM8K上达到86.4%，MATH500上达到47.4%，AMC上达到24.4%
相比基线方法累计提升4.9%-9.9%，在所有评估基准上都超过了包括LLaDA-1.5在内的所有基线方法

实际应用价值

为扩散语言模型的强化学习对齐提供了新范式，解决了训练中的零优势困境
显著提高了数学推理任务的性能，为教育技术和自动解题系统提供了更可靠的解决方案
提出的长度对齐方法解决了训练、采样和评估阶段之间的序列长度不匹配问题，提高了训练稳定性

4️⃣ 术语表

dLLMs：扩散大语言模型，通过并行迭代去掩码生成文本，具有双向注意力和修复能力
inpainting：修复操作，能够在现有文本中填充缺失内容，为生成过程提供条件提示
IGPO：修复引导的策略优化，一种针对掩码扩散大语言模型的强化学习对齐方法
GRPO：组相对策略优化，基于群体的策略优化方法，使用群体统计进行优势估计
masked dLLM：掩码扩散大语言模型，采用掩码和去噪方式进行文本生成的扩散模型
Entropy-based Gradient Filtering：基于熵的梯度过滤策略，仅对模型不确定性高的令牌位置进行梯度更新以提高训练稳定性
Length-Aligned SFT：长度对齐的监督微调，通过重写轨迹来改进模型性能的专门训练方法
Diffusion Language Models：基于扩散过程的语言生成模型，通过逐步去噪生成文本

← 返回列表

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. IGPO框架

2. 弹性修复触发采样

3. 长度对齐监督微调

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. IGPO框架

2. 弹性修复触发采样

3. 长度对齐监督微调

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要