arXiv最新AI论文速览速学

🔍

data ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: Objective Mispricing Detection for Shortlisting Undervalued Football Players via Market Dynamics and News Signals 03-19

arXiv ID: 2601.08828

arXiv 提交日期: 2026-01-13

video generation model training data motion attribution data curation gradient-based attribution temporal dynamics fine-tuning

视频生成中的运动归因 / Motion Attribution for Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为Motive的框架，它能找出训练数据中哪些视频片段对AI生成视频的‘运动效果’影响最大，并利用这些发现来优化数据选择，从而让生成的视频动作更流畅、更符合物理规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06789

arXiv 提交日期: 2026-01-11

agents systems data autonomous software engineering code agents experience retrieval github data agent memory

MemGovern：通过从受治理的人类经验中学习来增强代码智能体 / MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

1️⃣ 一句话总结

这篇论文提出了一个名为MemGovern的框架，它能够将GitHub上零散的历史编程问题解决经验整理成结构化的‘经验卡片’，帮助代码智能体更高效地检索和利用这些人类智慧，从而显著提升其自动修复软件bug的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04469

arXiv 提交日期: 2026-01-08

natural language processing model evaluation data morphological analysis subword tokenization uralic languages bpe evaluation low-resource nlp

SampoNLP：用于子词分词器形态学分析的自指工具包 / SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers

1️⃣ 一句话总结

这篇论文提出了一个名为SampoNLP的工具包，它能自动为芬兰语、匈牙利语等形态复杂的语言创建高质量的形态学词典，并利用这些词典首次系统评估了不同词汇量下BPE分词器的性能，为这些语言找到了最优的词汇量大小，揭示了标准BPE方法在处理高度黏着语时的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04577

arXiv 提交日期: 2026-01-08

llm data model evaluation scientific reasoning dataset innovation patterns research agents knowledge synthesis

Sci-Reasoning：一个解码人工智能创新模式的数据集 / Sci-Reasoning: A Dataset Decoding AI Innovation Patterns

1️⃣ 一句话总结

这篇论文构建了一个名为Sci-Reasoning的数据集，通过追踪顶级AI会议论文与其关键前作之间的推理联系，首次系统地揭示了AI研究背后的核心思维模式，并发现其中三种主要策略（如填补空白和跨领域融合）主导了超过一半的创新。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01720

arXiv 提交日期: 2026-01-05

video generation model training data first-frame propagation video editing dataset temporal consistency positional encoding

FFP-300K：扩展首帧传播以实现通用视频编辑 / FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

1️⃣ 一句话总结

这篇论文通过构建一个大规模高质量视频数据集（FFP-300K）并设计一种新的自适应框架，解决了现有视频编辑方法依赖繁琐引导的难题，实现了无需额外指引、能同时保持首帧外观和原视频运动的稳定视频编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24160

arXiv 提交日期: 2025-12-30

computer vision multi-modal data industrial defect detection vision-language model dataset diffusion model domain adaptation

迈向开放词汇工业缺陷理解：基于大规模多模态数据集 / Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

1️⃣ 一句话总结

这篇论文构建了一个包含百万级图像-文本对的大型工业缺陷数据集IMDD-1M，并基于此训练了一个通用的视觉-语言基础模型，该模型只需少量数据微调就能在多种工业检测任务上达到专家模型水平，为实现高效、可扩展的智能制造质检提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21472

arXiv 提交日期: 2025-12-25

medical data computer vision medical image segmentation multi-annotator dataset skin lesion dermoscopic imaging dataset curation

IMA++：ISIC档案多标注者皮肤镜病灶分割数据集 / IMA++: ISIC Archive Multi-Annotator Dermoscopic Skin Lesion Segmentation Dataset

1️⃣ 一句话总结

这篇论文发布了一个目前最大的公开多标注者皮肤镜图像病灶分割数据集，包含近1.5万张图像和1.7万个分割标注，并提供了标注者技能等元数据，以支持医学图像分割中标注者差异和偏好建模等研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.18542

arXiv 提交日期: 2025-12-20

llm data model training secure code generation dataset vulnerability code security benchmark

SecureCode v2.0：一个用于训练安全感知代码生成模型的生产级数据集 / SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models

1️⃣ 一句话总结

为了解决现有AI助手生成代码时存在大量安全漏洞的问题，本研究创建了一个包含1215个高质量、基于真实安全事件的生产级代码数据集，旨在训练出能生成更安全代码的AI模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16676

arXiv 提交日期: 2025-12-18

llm systems data data preparation workflow automation llm agents framework synthetic data generation

DataFlow：一个统一、可扩展、由LLM驱动的数据准备框架 / DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

1️⃣ 一句话总结

论文提出了DataFlow，一个旨在解决当前大语言模型（LLM）数据准备流程碎片化问题的统一框架，它通过模块化、可组合的数据转换操作符和类似PyTorch的API，并结合智能代理DataFlow-Agent实现从自然语言描述自动生成可执行流水线，显著提升了数据准备的质量、效率和易用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16106

arXiv 提交日期: 2025-12-18

data benchmark systems structured tables model understanding knowledge discovery data lake corpus construction

ModelTables：面向AI模型的大规模结构化表格语料库 / ModelTables: A Corpus of Tables about Models

1️⃣ 一句话总结

本文提出了ModelTables，这是首个专门用于描述AI模型的大规模结构化表格基准数据集，它通过整合Hugging Face模型卡、GitHub代码库和学术论文，构建了一个包含超过6万个模型和9万个表格的语料库，并引入了一套基于开发者行为的多源真实相关性标注，为模型理解、表格搜索和知识发现等任务提供了高质量的数据基础和评估标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.08828

1️⃣ 一句话总结

arXiv ID: 2601.06789

1️⃣ 一句话总结

arXiv ID: 2601.04469

1️⃣ 一句话总结

arXiv ID: 2601.04577

1️⃣ 一句话总结

arXiv ID: 2601.01720

1️⃣ 一句话总结

arXiv ID: 2512.24160

1️⃣ 一句话总结

arXiv ID: 2512.21472

1️⃣ 一句话总结

arXiv ID: 2512.18542

1️⃣ 一句话总结

arXiv ID: 2512.16676

1️⃣ 一句话总结

arXiv ID: 2512.16106

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.08828 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04469 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21472 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.18542 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16676 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16106 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.08828

arXiv ID: 2601.06789

arXiv ID: 2601.04469

arXiv ID: 2601.04577

arXiv ID: 2601.01720

arXiv ID: 2512.24160

arXiv ID: 2512.21472

arXiv ID: 2512.18542

arXiv ID: 2512.16676

arXiv ID: 2512.16106