arXiv ID:
2605.26355
arXiv 提交日期: 2026-05-25
能量门控注意力与小波位置编码:Transformer注意力的互补归纳偏置 / Energy-Gated Attention and Wavelet Positional Encoding: Complementary Inductive Biases for Transformer Attention
1️⃣ 一句话总结
本文发现标准Transformer注意力机制缺乏两种关键能力:识别重要信息的能力(能量显著性)和在不同尺度上感知位置关系的能力(尺度选择性局部性),并分别提出了能量门控注意力(EGA)和小波位置编码(MoPE)来弥补这些缺陷;实验表明两者结合能产生超过各自单独效果之和的“超加性”收益,证明了这两种归纳偏置是互补的。