arXiv ID:
2603.10145
arXiv 提交日期: 2026-03-10
迷失在反向传播中:语言模型输出层是梯度瓶颈 / Lost in Backpropagation: The LM Head is a Gradient Bottleneck
1️⃣ 一句话总结
这篇论文发现,大型语言模型输出层中巨大的词汇表维度会严重压缩和抑制反向传播的梯度信号,导致大部分参数无法获得有效的训练反馈,从而造成显著的优化瓶颈和训练效率低下。