arXiv ID:
2510.10681
arXiv 提交日期: 2025-10-12
RePro:训练语言模型忠实回收网络数据用于预训练 / RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
1️⃣ 一句话总结
这篇论文提出了一种名为RePro的新方法,通过训练一个小型语言模型来智能改写网络数据,既提升预训练数据质量又保持原意,使模型在多项任务上的表现显著优于传统方法,并实现了2-3倍的数据利用效率提升。