arXiv ID:
2601.21709
arXiv 提交日期: 2026-01-29
注意力模式为何存在:一种统一的时序视角分析 / Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
1️⃣ 一句话总结
这篇论文提出了一个名为TAPPA的统一框架,从时序连续性的角度解释了大型语言模型中各种注意力模式的成因,并将其分为可预测和不可预测两类,这一理论不仅深化了对注意力机制的理解,还能有效指导模型推理加速和压缩任务。