arXiv ID:
2605.26971
寻找RLVR数据集的源头:追溯数据血缘以构建更优的训练数据 / RLVR Datasets and Where to Find Them: Tracing Data Lineage for Better Training Data
1️⃣ 一句话总结
这篇论文发现当前众多用于强化学习(基于可验证奖励)的数据集大多来源于少数几个共享的原始数据源,并存在数据污染问题,因此提出了一套名为ATLAS的血缘追踪框架和一个新的高质量数据集DAPO++,通过追溯每个样本的原始来源来评估其价值,从而筛选出更干净、更有效的训练数据。