arXiv ID:
2603.09616
arXiv 提交日期: 2026-03-10
ALiBi Transformer中注意力头塌陷的手术式修复 / Surgical Repair of Collapsed Attention Heads in ALiBi Transformers
1️⃣ 一句话总结
这篇论文发现BLOOM系列大模型中有大量注意力头失效,并提出了一种精准的‘手术式’修复方法,仅需极少计算资源就能恢复模型性能,甚至能超越原始模型,表明预训练模型可能并未达到最优状态。