arXiv ID:
2606.26650
arXiv 提交日期: 2026-06-25
CAT-Q:面向大语言模型的经济高效且准确的三值量化方法 / CAT-Q: Cost-efficient and Accurate Ternary Quantization for LLMs
1️⃣ 一句话总结
CAT-Q是一种针对大语言模型的轻量化后训练量化技术,仅需512个校准样本就能将模型压缩为三值版本,在保持性能的同时,训练成本相比同类方法降低约十万倍,并能高效处理高达2350亿参数的超大规模模型。