arXiv ID:
2605.25395
arXiv 提交日期: 2026-05-25
EMA-Nesterov:稳定Nesterov前瞻机制以加速深度学习优化 / EMA-Nesterov: Stabilizing Nesterov's Lookahead for Accelerated Deep Learning Optimization
1️⃣ 一句话总结
该论文提出一种名为EMA-Nesterov的简单优化改进方法,通过用指数移动平均(EMA)替代传统Nesterov动量中的短视前瞻方向,有效过滤随机梯度噪声,捕捉训练轨迹的低频趋势,从而在深度学习(如语言模型预训练)中实现更稳定、更快的收敛,并兼容多种主流优化器。