arXiv ID:
2601.21824
arXiv 提交日期: 2026-01-29
DASH:面向高吞吐量可复现大语言模型训练的确定性注意力调度方法 / DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training
1️⃣ 一句话总结
这篇论文提出了一种名为DASH的新调度方法,通过优化计算和梯度累积操作的执行顺序,大幅提升了确定性大语言模型训练的效率,在保证结果可复现的同时显著减少了性能损失。