arXiv ID:
2602.21371
arXiv 提交日期: 2026-02-24
交错头注意力机制 / Interleaved Head Attention
1️⃣ 一句话总结
这篇论文提出了一种名为‘交错头注意力’的新方法,通过让注意力头之间在计算时相互通信,有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题,从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。