arXiv ID:
2509.10396
基于修复引导的策略优化用于扩散大语言模型 / Inpainting-Guided Policy Optimization for Diffusion Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为IGPO的新方法,利用扩散大语言模型的文本修复能力来引导强化学习过程,有效解决了训练中的探索效率低和样本浪费问题,在多个数学推理任务上取得了领先的性能。