arXiv ID:
2605.01989
arXiv 提交日期: 2026-05-03
DBLP:面向突发鲁棒性的分布式机器学习训练中相位感知有界丢失传输协议 / DBLP: Phase-Aware Bounded-Loss Transport for Burst-Resilient Distributed ML Training
1️⃣ 一句话总结
本文提出了一种名为DBLP的新型网络传输协议,它能根据模型训练的不同阶段动态调整梯度数据的丢失容忍度,从而有效缓解网络突发拥塞引起的训练延迟剧烈波动,最终将端到端训练时间平均缩短24.4%,并在突发事件中实现通信速度提升近6倍。