arXiv ID:
2604.19157
arXiv 提交日期: 2026-04-21
SAW-INT4:面向实际大语言模型服务的系统感知4位KV缓存量化 / SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving
1️⃣ 一句话总结
本文提出了一种系统感知的4位KV缓存量化方法,通过简单的按Token量化和分块对角哈达玛旋转,在不牺牲服务效率的前提下,几乎恢复了朴素INT4量化带来的精度损失,并证明了在实际部署中轻量级方法比复杂方法更有效。