arXiv ID:
2602.14462
arXiv 提交日期: 2026-02-16
数据并行全参数微调中的静默不一致性:诊断工作节点级优化失准 / Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment
1️⃣ 一句话总结
这篇论文发现,在大语言模型的数据并行全参数微调中,即使模型参数在每次迭代后通过同步保持一致,各个计算节点内部的实际优化过程也可能存在隐藏的不一致,并提出了一个轻量级的诊断框架来量化这种‘静默不一致性’,帮助更可靠地评估训练稳定性。