arXiv ID:
2606.02011
arXiv 提交日期: 2026-06-01
极端低位推理在推理模型中的应用:失败模式与针对性恢复 / Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery
1️⃣ 一句话总结
本文发现,将推理模型(如Qwen3)的权重量化到2位(极低精度)会导致模型生成大量重复、卡顿或过早结束的错误推理过程,从而抵消速度优势;通过引入两种轻量方法(高精度规划大纲和循环检测恢复),可以大幅修复这些错误,使2位推理在保持加速的同时恢复接近原始模型的准确率,比如将Qwen3-8B在MATH-500上的准确率从17.2%提升到74.2%。