arXiv ID:
2602.02400
arXiv 提交日期: 2026-02-02
关于噪声数据与大语言模型预训练损失发散现象的实证研究 / An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence
1️⃣ 一句话总结
这项研究通过大规模实验证实,大语言模型预训练过程中使用的网络数据如果含有过多随机噪声,确实会导致模型训练失败,并且失败的概率与噪声类型、数量以及模型规模密切相关。