arXiv ID:
2605.17849
arXiv 提交日期: 2026-05-18
从有机数据生成预训练语料:面向数据受限扩展的合成数据方法 / Generating Pretraining Tokens from Organic Data for Data-Bound Scaling
1️⃣ 一句话总结
本文提出了一种名为SynPro的框架,通过对有限的有机文本进行改写和重格式化,生成多样化的合成训练数据,使大语言模型在数据严重不足的条件下仍能有效扩展,其性能提升远超简单的重复训练,甚至接近使用更多真实数据的效果。