arXiv ID:
2512.10952
arXiv 提交日期: 2025-12-11
面向高质量数据共享的分层数据集选择方法 / Hierarchical Dataset Selection for High-Quality Data Sharing
1️⃣ 一句话总结
这篇论文提出了一种名为DaSH的分层数据集选择方法,它通过同时考虑数据集和其所属群组(如机构或集合)的效用,从大量异构数据源中高效挑选出高质量的数据集,以提升机器学习模型性能,相比现有方法在准确率上最高提升26.2%,且所需探索步骤更少。