arXiv ID:
2603.15059
Muon优化器在重尾噪声下的收敛性:非凸Hölder平滑经验风险最小化 / Muon Converges under Heavy-Tailed Noise: Nonconvex Hölder-Smooth Empirical Risk Minimization
1️⃣ 一句话总结
这篇论文证明了,即使在训练数据噪声呈现‘重尾分布’(即存在极端异常值)的严苛条件下,一种名为Muon的新型优化算法也能稳定地找到神经网络的有效解,并且其收敛速度比传统的小批量随机梯度下降法更快。