arXiv ID:
2605.17787
arXiv 提交日期: 2026-05-18
重新审视大语言模型预训练中的Adam-SGD差距:大有效学习率的作用 / Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates
1️⃣ 一句话总结
本文发现,在训练大语言模型时,SGD(随机梯度下降)效果远差于Adam的主要原因在于SGD无法像Adam那样使用大的有效学习率,而通过简单的梯度裁剪让SGD也能使用大学习率,就能大幅缩小两者之间的性能差距。