arXiv ID:
2605.02404
arXiv 提交日期: 2026-05-04
大型语言模型的统计无损量化 / Statistically-Lossless Quantization of Large Language Models
1️⃣ 一句话总结
本文提出了一种名为SLQ的量化方法,通过引入三种不同严格程度的“无损”定义(任务无损、分布无损和统计无损),并在非对称量化和宽位宽搜索下实现,既能将模型压缩到每个参数低至3.3比特,又能保持模型输出分布与原始模型几乎一致,同时带来1.7到3.6倍的推理加速。