arXiv ID:
2602.16340
arXiv 提交日期: 2026-02-18
Adam和Muon优化器在平滑齐次神经网络上的隐式偏好 / The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks
1️⃣ 一句话总结
这篇论文通过理论分析和实验证明,在训练结构特殊的神经网络时,不同的动量优化算法(如Adam、Muon)会隐式地引导模型朝着不同几何意义上的“最优解”收敛,从而影响最终模型的性能。