arXiv ID:
2602.03515
arXiv 提交日期: 2026-02-03
通过基旋转缓解异步流水线并行中的梯度陈旧性问题 / Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation
1️⃣ 一句话总结
这篇论文发现异步流水线并行训练中,梯度延迟会随着模型深度线性增长并严重拖慢收敛,提出通过一种名为‘基旋转’的数学变换来校正延迟梯度,从而在保持高效硬件利用率的同时,显著加速大规模模型的训练速度。