arXiv ID:
2603.03993
arXiv 提交日期: 2026-03-04
Softmax注意力头的专业化:来自高维单位置模型的洞见 / Specialization of softmax attention heads: insights from the high-dimensional single-location model
1️⃣ 一句话总结
这篇论文通过一个理论模型解释了Transformer中多头注意力机制的训练过程,揭示了注意力头会分阶段地专业化学习不同特征,并提出了改进的注意力函数来提升模型性能。