arXiv ID:
2606.10537
arXiv 提交日期: 2026-06-09
预填充扩散语言模型:面向长上下文推理的预测性预填充方法 / Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models
1️⃣ 一句话总结
本文提出一种无需重新训练的方法,通过将长文本分段缓存关键信息,并在生成时只选择最相关的片段进行计算,大幅加速了扩散语言模型处理长文本的速度(最高提速28倍),同时保持了甚至超过了原有模型的输出质量。