arXiv ID:
2510.13998
arXiv 提交日期: 2025-10-15
BitNet蒸馏 / BitNet Distillation
1️⃣ 一句话总结
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。