arXiv ID:
2605.02144
arXiv 提交日期: 2026-05-04
通过高斯核注意力实现无投影变换器 / Projection-Free Transformers via Gaussian Kernel Attention
1️⃣ 一句话总结
本文提出了一种名为高斯核注意力(GKA)的新机制,它用简单的基于距离的扩散操作替代了传统Transformer中复杂的线性投影,仅通过学习一个带宽参数即可实现高效、可解释的注意力计算,在参数和计算量减半的情况下依然能稳定训练并取得有竞争力的性能。