arXiv ID:
2605.20314
arXiv 提交日期: 2026-05-19
更少的数据,更快的训练:重复使用较小数据集通过采样偏差加速学习 / Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases
1️⃣ 一句话总结
本文发现,在训练过程中重复使用较小的数据集,反而能比使用更大的整体数据集更快地达到良好效果,这种加速源于小数据集带来的采样偏差促进了神经网络各层的均衡成长,尤其对逻辑推理类任务特别有效。