arXiv ID:
2606.11552
教扩散模型从左到右进行推测解码 / Teaching Diffusion to Speculate Left-to-Right
1️⃣ 一句话总结
本文提出三种训练干预方法(位置加权、首错误聚焦损失、链损失),弥合了扩散语言模型双向生成猜测令牌与自回归目标模型从左到右验证之间的不对称性,从而在不增加推理成本的前提下,将推测解码的接受长度提升了21%到76%。