arXiv ID:
2601.19895
后层归一化回归:稳定、高表达力与深度扩展 / Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
1️⃣ 一句话总结
这篇论文提出了一种名为Keel的新Transformer架构,它通过将传统的残差连接替换为高速公路式连接,解决了后层归一化在极深网络中训练不稳定的问题,从而能够稳定训练超过1000层的模型,为实现更深、表达能力更强的大语言模型提供了一种简单有效的方法。