arXiv ID:
2604.14702
arXiv 提交日期: 2026-04-16
门控机制实现曲率:注意力机制中的几何表达能力差距 / Gating Enables Curvature: A Geometric Expressivity Gap in Attention
1️⃣ 一句话总结
这篇论文从几何角度解释了为什么在注意力机制中加入乘法门控能提升模型性能,指出门控能让模型学习到更复杂的非线性决策边界,而无门控的注意力则只能表达简单的线性结构。