arXiv ID:
2606.10820
K-Forcing:通过前向语言模型实现联合多令牌解码 / K-Forcing: Joint Next-K-Token Decoding via Push-Forward Language Modeling
1️⃣ 一句话总结
本文提出了一种名为K-Forcing的新方法,通过将已有的自回归语言模型转化为一次生成多个未来令牌的前向映射,在不改变原有服务架构的情况下,将文本生成速度提升2.4到3.5倍,同时只带来轻微的质量损失,特别适合工业界高并发场景下的模型加速。