arXiv ID:
2602.06036
DFlash:用于闪存推测解码的块扩散模型 / DFlash: Block Diffusion for Flash Speculative Decoding
1️⃣ 一句话总结
这篇论文提出了一种名为DFlash的新方法,它巧妙地结合了扩散模型的并行生成能力和推测解码框架,通过一个轻量级的块扩散模型来快速生成草稿文本,再由大语言模型进行并行验证,从而在不损失生成质量的前提下,将大模型的推理速度提升了6倍以上。