arXiv最新AI论文速览速学

🔍

标签: #data ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: ViPO: Visual Preference Optimization at Scale 05-02

arXiv ID: 2603.29474

arXiv 提交日期: 2026-03-31

machine learning systems data data collection automotive systems closed-loop data quality real-time processing

从大数据到快数据：通过闭环数据采集为机器学习应用构建高质量数据集 / From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection

1️⃣ 一句话总结

这篇论文提出了一种名为‘快数据’的新方法，通过在车辆端实时、智能地筛选和记录数据，从而直接生成更相关、信息密度更高的数据集，以满足汽车系统机器学习应用的需求，同时减少无关数据和成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28886

arXiv 提交日期: 2026-03-30

natural language processing machine learning data retrieval augmentation score calibration multi-hop qa graph retrieval fusion methods

多跳问答中异构图-向量检索的校准融合方法 / Calibrated Fusion for Heterogeneous Graph-Vector Retrieval in Multi-Hop QA

1️⃣ 一句话总结

这篇论文提出了一种名为PhaseGraph的校准融合方法，通过将图检索和向量检索这两种不同来源的分数统一到同一无单位尺度后再进行融合，有效提升了多跳问答中最终答案检索的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28317

arXiv 提交日期: 2026-03-30

education systems data data literacy k-12 education learning trajectories systematic review computer science education

绘制K-12教育中的数据素养发展路径 / Mapping data literacy trajectories in K-12 education

1️⃣ 一句话总结

这篇论文通过回顾大量研究，提出了一个分析K-12学生如何学习数据知识的框架，并描绘了四种不同的学习路径，帮助教育者根据具体情境设计更有效的数据素养课程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28763

arXiv 提交日期: 2026-03-30

computer vision model training data human pose estimation diffusion models synthetic data generation 3d mesh annotation dataset creation

PoseDreamer：基于扩散模型的可扩展且逼真的人体数据生成流程 / PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一个名为PoseDreamer的新流程，它利用先进的扩散模型自动生成大量既逼真又带有精确3D人体姿态标注的合成图像数据，从而有效解决了3D人体姿态估计任务中真实数据标注困难和传统合成数据不够逼真的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28287

arXiv 提交日期: 2026-03-30

computer vision data systems 3d reconstruction dataset multi-view landmark high-resolution

TerraSky3D：欧洲地标的4K多视角三维重建数据集 / TerraSky3D: Multi-View Reconstructions of European Landmarks in 4K

1️⃣ 一句话总结

为了解决现有公开三维重建数据集在分辨率、规模和场景多样性上的不足，本研究创建了一个包含5万张高分辨率图像、涵盖150个地面与空中混合场景的欧洲地标大型数据集，并提供了精确的校准数据、相机位姿和深度图，旨在为复杂三维重建算法的训练与评估提供有力支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28515

arXiv 提交日期: 2026-03-30

llm natural language processing data scientific writing revision dataset text revision latex traces llm evaluation

EarlySciRev：一个从LaTeX写作痕迹中提取的早期科学修订数据集 / EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces

1️⃣ 一句话总结

这篇论文创建了一个名为EarlySciRev的新数据集，它通过分析学术论文LaTeX源文件中作者注释掉的旧文本，自动提取了大量真实的早期写作修订记录，为研究写作过程和开发AI辅助写作工具提供了宝贵资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27923

arXiv 提交日期: 2026-03-30

computer vision systems data semantic segmentation synthetic dataset autonomous navigation off-road perception simulation

ForestSim：用于非结构化森林环境中智能车辆感知的合成基准数据集 / ForestSim: A Synthetic Benchmark for Intelligent Vehicle Perception in Unstructured Forest Environments

1️⃣ 一句话总结

这篇论文提出了一个名为ForestSim的高质量合成数据集，专门用于训练和评估智能车辆在复杂森林等非结构化越野环境中的视觉感知能力，以弥补该领域真实标注数据稀缺的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27206

arXiv 提交日期: 2026-03-28

computer vision model training data semantic segmentation few-shot learning synthetic data diffusion models pseudo-labeling

创造即所得：在广义少样本语义分割中利用合成图像实现真实性能提升 / Make It Up: Fake Images, Real Gains in Generalized Few-shot Semantic Segmentation

1️⃣ 一句话总结

这篇论文提出了一个名为Syn4Seg的新方法，它通过巧妙地合成大量新类别图像并结合多阶段伪标签优化技术，有效解决了广义少样本语义分割中因新类别样本稀缺和标注质量差导致的性能瓶颈问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27385

arXiv 提交日期: 2026-03-28

machine learning model training data active learning tabular data in-context learning foundation models sample efficiency

面向表格基础模型的主动上下文学习 / Active In-Context Learning for Tabular Foundation Models

1️⃣ 一句话总结

这篇论文提出了一种名为Tab-AICL的新方法，它结合了主动学习和上下文学习，让表格基础模型（如TabPFN）在只有少量标注数据时，也能高效地选择最有价值的样本进行标注，从而在冷启动阶段显著提升了学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25955

arXiv 提交日期: 2026-03-26

data benchmark machine learning anomaly detection time series sensor data automotive real-world dataset

EngineAD：一个真实世界的车辆发动机异常检测数据集 / EngineAD: A Real-World Vehicle Engine Anomaly Detection Dataset

1️⃣ 一句话总结

这篇论文发布了一个名为EngineAD的真实世界车辆发动机多变量传感器数据集，用于挑战和评估异常检测算法，并发现简单的传统方法在该任务上常常能与复杂的深度学习方法相媲美甚至更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.29474

1️⃣ 一句话总结

arXiv ID: 2603.28886

1️⃣ 一句话总结

arXiv ID: 2603.28317

1️⃣ 一句话总结

arXiv ID: 2603.28763

1️⃣ 一句话总结

arXiv ID: 2603.28287

1️⃣ 一句话总结

arXiv ID: 2603.28515

1️⃣ 一句话总结

arXiv ID: 2603.27923

1️⃣ 一句话总结

arXiv ID: 2603.27206

1️⃣ 一句话总结

arXiv ID: 2603.27385

1️⃣ 一句话总结

arXiv ID: 2603.25955

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.29474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28886 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28515 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27923 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27385 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25955 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.29474

arXiv ID: 2603.28886

arXiv ID: 2603.28317

arXiv ID: 2603.28763

arXiv ID: 2603.28287

arXiv ID: 2603.28515

arXiv ID: 2603.27923

arXiv ID: 2603.27206

arXiv ID: 2603.27385

arXiv ID: 2603.25955