arXiv ID:
2605.19095
arXiv 提交日期: 2026-05-18
ScheduleFree+:将无学习率与无学习率调整的大规模语言模型训练方法扩展至实际应用 / ScheduleFree+: Scaling Learning-Rate-Free & Schedule-Free Learning to Large Language Models
1️⃣ 一句话总结
本文提出了一种改进的无学习率且无需预设学习率调度策略的训练方法ScheduleFree+,通过解决大规模训练中的关键问题,使该方法在训练大型语言模型时性能显著优于传统的最佳调度策略(如WSD),尤其在长时间训练中能提升高达31%的效果,并为预训练中的模型平均与检查点合并提供了理论基础。