arXiv ID:
2602.03001
arXiv 提交日期: 2026-02-03
基于非欧几里得梯度噪声尺度自适应调整批处理大小,用于随机符号与谱下降法 / Adaptive Batch Sizes Using Non-Euclidean Gradient Noise Scales for Stochastic Sign and Spectral Descent
1️⃣ 一句话总结
这篇论文提出了一种新的自适应批处理大小调整方法,它专门为两种流行的非欧几里得优化器(Signum和Muon)设计了匹配其几何特性的梯度噪声尺度,从而在保证模型性能的同时,大幅减少了训练所需的迭代次数。