arXiv ID:
2605.21486
arXiv 提交日期: 2026-05-20
量化超参数迁移与嵌入层学习率的重要性 / Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate
1️⃣ 一句话总结
本文提出了一套量化超参数迁移质量的指标,并发现最大化嵌入层的学习率是μP参数化相比标准参数化在训练大语言模型时效果更好的主要原因,同时指出权重衰减能改善超参数缩放规律的拟合,但在固定每个参数对应的token数时会削弱外推的鲁棒性。