arXiv ID:
2512.14051
arXiv 提交日期: 2025-12-16
OpenDataArena:一个用于评估模型训练后数据集价值的公平开放平台 / OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
1️⃣ 一句话总结
这篇论文提出了一个名为OpenDataArena的开放平台,旨在解决大语言模型训练数据不透明的问题,通过建立一个包含统一训练评估流程、多维评分框架和数据溯源工具的生态系统,来系统性地衡量和比较不同训练数据集的内在价值,从而推动以数据为中心的AI研究。