arXiv ID:
2606.13054
arXiv 提交日期: 2026-06-11
TWLA:通过训练后量化实现大语言模型的三值权重与低位激活 / TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization
1️⃣ 一句话总结
本文提出了一种名为TWLA的新型训练后量化框架,通过巧妙的数学变换和优化策略,成功将大语言模型的权重压缩到1.58位、激活值量化到4位,在保持高精度的同时大幅提升推理速度,解决了此前极低比特量化中激活值难以压缩的难题。