arXiv ID:
2606.30634
arXiv 提交日期: 2026-06-29
一步梯度延迟不是大规模异步流水线并行大模型预训练的障碍 / One-Step Gradient Delay is Not a Barrier for Large-Scale Asynchronous Pipeline Parallel LLM Pretraining
1️⃣ 一句话总结
本文通过理论和实验证明,在异步流水线并行训练大模型时,由旧梯度引起的一步延迟并非天生导致训练不稳定,而是主要取决于所选优化器:AdamW在此场景下性能严重下降,而Muon等新优化器则能有效抵抗延迟影响,结合误差反馈修正后,模型性能可媲美同步训练。