arXiv ID:
2602.21545
arXiv 提交日期: 2026-02-25
Muon+:通过一个额外的归一化步骤改进Muon优化器 / Muon+: Towards Better Muon via One Additional Normalization Step
1️⃣ 一句话总结
这篇论文提出了一种名为Muon+的改进版优化器,它在原有Muon优化器的梯度正交化步骤后增加了一个归一化步骤,从而在各种规模和架构的大语言模型预训练中,都能稳定地提升训练效果和验证性能。