arXiv ID:
2604.11890
arXiv 提交日期: 2026-04-13
无归一化Transformer初始化时的亚临界信号传播 / Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
1️⃣ 一句话总结
这篇论文通过分析梯度在Transformer各层间的放大效应,发现用类tanh的非线性函数替代层归一化会导致模型在初始化时信号传播能力变弱,从而解释了这类模型为何对初始化和优化参数更敏感、训练更不稳定的原因。