arXiv最新AI论文速览速学

🔍

标签: #data quality ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection 04-06

arXiv ID: 2603.29474

arXiv 提交日期: 2026-03-31

machine learning systems data data collection automotive systems closed-loop data quality real-time processing

从大数据到快数据：通过闭环数据采集为机器学习应用构建高质量数据集 / From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection

1️⃣ 一句话总结

这篇论文提出了一种名为‘快数据’的新方法，通过在车辆端实时、智能地筛选和记录数据，从而直接生成更相关、信息密度更高的数据集，以满足汽车系统机器学习应用的需求，同时减少无关数据和成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19130

arXiv 提交日期: 2026-02-22

model evaluation data machine learning labeling bias influence functions data quality fairness error detection

使用影响函数检测标注偏见 / Detecting labeling bias using influence functions

1️⃣ 一句话总结

这篇论文提出了一种利用影响函数来检测数据集中因人为疏忽或资源限制导致的错误标签的方法，并在图像识别和医疗影像数据集上验证了其有效性，能成功识别出大部分标注错误的样本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21981

arXiv 提交日期: 2026-01-29

data systems model evaluation data verification sports analytics event stream data quality state-transition model

VERSA：用于可靠足球分析的可验证事件数据格式 / VERSA: Verified Event Data Format for Reliable Soccer Analytics

1️⃣ 一句话总结

这篇论文提出了一个名为VERSA的系统化验证框架，它通过定义有效的事件序列规则，自动检测和修正足球比赛事件数据中的逻辑错误，从而显著提升了数据分析的可靠性和下游任务（如球员贡献评估）的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18127

arXiv 提交日期: 2026-01-26

ai data policy transparency policy disclosure fallacies ai governance data quality regulatory gaps

人工智能数据透明度政策的局限：三种披露谬误 / The Limits of AI Data Transparency Policy: Three Disclosure Fallacies

1️⃣ 一句话总结

这篇论文指出，当前旨在通过数据披露来提升AI问责的透明度政策存在三大常见谬误——目标与手段脱节、执行不力以及影响有限，并基于社会科学研究提出了让透明度真正有效而非流于形式的改进路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10305

arXiv 提交日期: 2026-01-15

multi-modal data model training vision-language pretraining chinese dataset image-text pairs cross-modal retrieval data quality

丹青：一个最新的大规模中文视觉-语言预训练数据集 / DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

1️⃣ 一句话总结

这篇论文为了解决高质量中文图文数据稀缺的问题，构建了一个包含1亿对高质量、时效性强（主要来自2024-2025年）的中文图文数据集“丹青”，并通过实验证明使用该数据集训练的模型在多种中文下游任务上表现更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.10952

arXiv 提交日期: 2025-12-11

machine learning data model training dataset selection multi-source learning hierarchical modeling data quality resource constraints

面向高质量数据共享的分层数据集选择方法 / Hierarchical Dataset Selection for High-Quality Data Sharing

1️⃣ 一句话总结

这篇论文提出了一种名为DaSH的分层数据集选择方法，它通过同时考虑数据集和其所属群组（如机构或集合）的效用，从大量异构数据源中高效挑选出高质量的数据集，以提升机器学习模型性能，相比现有方法在准确率上最高提升26.2%，且所需探索步骤更少。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13928

arXiv 提交日期: 2025-10-15

llm model training model evaluation data quality continual pretraining cognitive decline benchmark safety

大语言模型也会得'脑退化'！ / LLMs Can Get "Brain Rot"!

1️⃣ 一句话总结

这项研究证实，持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降，且这种损害难以通过后续优化完全恢复，提醒我们应将数据质量视为模型训练期的安全问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.29474

1️⃣ 一句话总结

arXiv ID: 2602.19130

1️⃣ 一句话总结

arXiv ID: 2601.21981

1️⃣ 一句话总结

arXiv ID: 2601.18127

1️⃣ 一句话总结

arXiv ID: 2601.10305

1️⃣ 一句话总结

arXiv ID: 2512.10952

1️⃣ 一句话总结

arXiv ID: 2510.13928

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.29474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21981 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10305 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.10952 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13928 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.29474

arXiv ID: 2602.19130

arXiv ID: 2601.21981

arXiv ID: 2601.18127

arXiv ID: 2601.10305

arXiv ID: 2512.10952

arXiv ID: 2510.13928