arXiv ID:
2605.26106
arXiv 提交日期: 2026-05-25
循环扩散语言模型 / Looped Diffusion Language Models
1️⃣ 一句话总结
本文提出了一种名为LoopMDM的方法,通过在掩码扩散语言模型中有选择地循环使用早期到中期的Transformer层,在不增加参数的情况下实现了深度缩放效果,显著提升了训练效率(最高节省3.3倍计算量)和推理性能(在GSM8K等推理基准上提升高达8.5分),并且通过自适应调整循环次数进一步优化了计算效率。