arXiv ID:
2605.20988
arXiv 提交日期: 2026-05-20
更清晰的Transformer泛化图像 / A Sharper Picture of Generalization in Transformers
1️⃣ 一句话总结
本文提出了一种新的理论方法,通过分析布尔函数的傅里叶频谱性质,证明Transformer在输入特征稀疏且低阶时能够找到平坦的极小值,从而获得非平凡的泛化保证,并利用实验和可解释性分析验证了理论的有效性。