arXiv ID:
2604.18556
arXiv 提交日期: 2026-04-20
GSQ:基于Gumbel-Softmax采样的高精度低比特标量量化方法,适用于大型语言模型 / GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling
1️⃣ 一句话总结
本文提出了一种名为GSQ的标量量化方法,通过Gumbel-Softmax技巧来优化量化网格和缩放参数,使得在2-3比特的低精度下,其压缩效果几乎能追上复杂向量量化方法的水平,同时保持了简单标量量化的高效部署优势,并成功应用于千亿参数规模的混合专家模型。