arXiv ID:
2605.10797
arXiv 提交日期: 2026-05-11
Muown:用于缪子优化的行范数控制 / Muown: Row-Norm Control for Muon Optimization
1️⃣ 一句话总结
本文提出了一种名为Muown的新优化器,它通过将权重矩阵的行范数作为独立变量进行显式控制,解决了Muon优化器在大规模语言模型训练中遇到的谱范数漂移问题,在多个模型规模下均取得了比Muon、AdamW等优化器更好的性能,且对超参数(如学习率和权重衰减)的敏感性更低。