arXiv ID:
2606.04945
arXiv 提交日期: 2026-06-03
STaR-Quant:面向扩散大语言模型的状态-时间一致后训练量化方法 / STaR-Quant: State-Time Consistent Post-Training Quantization for Diffusion Large Language Models
1️⃣ 一句话总结
本文提出了一种名为STaR-Quant的高效量化方法,通过分别处理掩码与未掩码 token 的不同激活分布,并补偿每一步去噪过程中累积的量化误差,从而显著压缩扩散大语言模型的计算和存储开销,在不牺牲性能的前提下实现近1.7倍的加速和3.1倍以上的内存节省。