arXiv ID:
2603.27914
arXiv 提交日期: 2026-03-30
ITQ3_S:通过结合旋转域平滑的交错三元量化实现高保真3位大语言模型推理 / ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing
1️⃣ 一句话总结
这篇论文提出了一种名为ITQ3_S的新方法,它通过一种特殊的数学变换(FWHT)在量化前“打散”权重中的极端值,从而在仅使用3位(而非通常的16位)存储模型参数时,几乎不损失精度,并能在消费级显卡上实现比4位量化更快的推理速度。