arXiv ID:
2606.11081
arXiv 提交日期: 2026-06-09
统一本地通信与本地更新的大语言模型预训练方法 / Unifying Local Communications and Local Updates for LLM Pretraining
1️⃣ 一句话总结
本文提出了一种名为GASLoC的新型去中心化预训练算法,通过将通信加速推广到“外部优化器”,使模型训练在低带宽、异构环境下既能兼容自适应优化器,又能进行本地更新和稀疏随机通信,从而在多个标准任务上超越现有最先进的去中心化方法,并在异构带宽场景下显著优于DiLoCo。