arXiv ID:
2606.26493
arXiv 提交日期: 2026-06-25
Nemotron双塔模型:利用预训练自回归上下文的扩散语言建模 / Nemotron-TwoTower: Diffusion Language Modeling with Pretrained Autoregressive Context
1️⃣ 一句话总结
本文提出了一种名为TwoTower的双塔扩散语言模型,将上下文理解与迭代去噪解耦为两个独立模块,在保留预训练自回归模型近99%生成质量的同时,将文本生成速度提升了2.4倍,实现了更高效的并行生成。