arXiv ID:
2603.10301
接近最优的学习率调度策略长什么样? / What do near-optimal learning rate schedules look like?
1️⃣ 一句话总结
这篇论文通过系统性的搜索方法,发现神经网络训练中接近最优的学习率调度策略普遍包含预热和衰减阶段,并且其具体形状会受到权重衰减等超参数的显著影响。