arXiv ID:
2603.09952
矩阵算子范数下神经优化器的宽度缩放研究 I:行/列归一化与超参数迁移 / On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer
1️⃣ 一句话总结
本文通过将AdamW等常用优化器解释为特定矩阵范数下的最速下降法,提出了一种基于行或列归一化的新优化器设计方法,能够在神经网络宽度增加时保持训练稳定性,并实现超参数在不同宽度模型间的有效迁移。