arXiv ID:
2606.13276
arXiv 提交日期: 2026-06-11
不同层,不同流形:Transformer优化中模块级权重空间几何 / Different Layers, Different Manifolds: Module-Wise Weight-Space Geometry in Transformer Optimization
1️⃣ 一句话总结
本文发现,在训练GPT-2这类Transformer模型时,对注意力模块和MLP模块分别施加不同类型的几何约束(注意力用Stiefel流形、MLP用DGram流形)能取得最佳效果,而统一使用同一种约束则会导致训练不稳定,原因是DGram约束会使注意力权重的奇异值增长进而破坏注意力机制的正常工作。