arXiv最新AI论文速览速学

🔍

标签: #data ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Hyper-Dimensional Fingerprints as Molecular Representations 05-03

arXiv ID: 2603.14712

arXiv 提交日期: 2026-03-16

llm model training data data-centric ai training data data preparation data selection workflow automation

迈向下一代大语言模型训练：从数据中心的视角 / Towards Next-Generation LLM Training: From the Data-Centric Perspective

1️⃣ 一句话总结

这篇论文指出当前大语言模型训练在数据准备和使用上存在效率低下、自动化不足的问题，并提出通过构建自动化的智能数据准备系统以及动态优化数据使用的训练框架，来推动下一代更高效、更智能的模型训练方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14210

arXiv 提交日期: 2026-03-15

natural language processing data systems language documentation crowdsourcing community governance low-resource languages digital preservation

瓦瓦纳吉：巴布亚新几内亚胡拉语社区自主运营的文档记录平台 / Vavanagi: a Community-run Platform for Documentation of the Hula Language in Papua New Guinea

1️⃣ 一句话总结

这篇论文介绍了一个名为‘瓦瓦纳吉’的、完全由社区自主发起、设计和管理的平台，它通过众包翻译和录音的方式，成功记录和保存了巴布亚新几内亚约有1万人使用的胡拉语，并建立了一个衡量社区参与度的多层级框架，展示了语言技术如何以社区为主导的方式连接城乡成员、维系代际传承和保护文化遗产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14563

arXiv 提交日期: 2026-03-15

llm data natural language processing synthetic dataset multilingual corpora low-resource languages small language models indic languages

多语言微型故事：一个用于训练小型语言模型的印度语儿童故事合成组合语料库 / Multilingual TinyStories: A Synthetic Combinatorial Corpus of Indic Children's Stories for Training Small Language Models

1️⃣ 一句话总结

这篇论文创建了一个包含17种印度语言、由超过13万篇儿童故事组成的大型合成数据集，专门用于训练和评估资源匮乏语言的小型语言模型，以解决这些语言高质量训练数据稀缺的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11767

arXiv 提交日期: 2026-03-12

natural language processing data systems knowledge graphs wikidata taxonomy qualifiers semantic analysis

理解Wikidata限定符：分析与分类研究 / Understanding Wikidata Qualifiers: An Analysis and Taxonomy

1️⃣ 一句话总结

这篇论文通过分析Wikidata限定符的实际使用情况和语义，创建了一个分类体系，帮助用户更好地选择、查询和理解这些限定符，从而提升知识图谱的构建与使用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11090

arXiv 提交日期: 2026-03-11

model training data machine learning causal inference time series foundation models synthetic data interventional data

用于因果基础模型的干预性时间序列先验 / Interventional Time Series Priors for Causal Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为CausalTimePrior的新框架，它能生成包含观测数据和干预数据的合成时间序列，从而解决了现有方法无法训练因果基础模型的关键难题，为开发能实时推断因果效应的强大AI模型铺平了道路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10876

arXiv 提交日期: 2026-03-11

natural language processing data multi-modal extreme multi-label classification subject indexing digital libraries ontology-aware classification authority file

一个极大多标签文本分类（XMTC）库数据集：如果我们认真对待“数字图书馆中实用人工智能的应用”会怎样？ / An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

1️⃣ 一句话总结

这篇论文发布了一个包含大量英德双语图书馆目录记录及其权威词标注的数据集，旨在帮助开发能够自动为文献添加专业标签、从而辅助图书馆员更高效工作的AI工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10724

arXiv 提交日期: 2026-03-11

computer vision biology data fine-grained classification species recognition biodiversity monitoring image dataset conservation

eLasmobranc数据集：一个用于软骨鱼类物种识别和生物多样性监测的图像数据集 / eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

1️⃣ 一句话总结

这篇论文发布了一个名为eLasmobranc的公开图像数据集，专门用于帮助人工智能系统精确识别和监测濒危的软骨鱼类物种，以支持生物多样性保护工作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10287

arXiv 提交日期: 2026-03-11

llm model evaluation data llm-as-a-judge tensor clustering evaluation bias multiway clustering score analysis

MultiwayPAM：用于LLM-as-a-Judge评分分析的多向围绕中心点划分方法 / MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

1️⃣ 一句话总结

本文提出了一种名为MultiwayPAM的张量聚类新方法，用于高效分析LLM作为评分员时产生的多维度评分数据，从而揭示评分偏差的结构并降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09373

arXiv 提交日期: 2026-03-10

llm natural language processing data spatial categorization dataset coverage cross-linguistic variation topological relations llm evaluation

量化与扩展空间分类数据集的覆盖范围 / Quantifying and extending the coverage of spatial categorization data sets

1️⃣ 一句话总结

这篇论文提出了一种利用大语言模型（LLMs）生成的空间关系标签来指导扩展空间分类数据集的方法，通过增加新场景显著提升了数据集的覆盖范围，为构建包含更多语言和场景的大规模数据集奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08207

arXiv 提交日期: 2026-03-09

natural language processing data model evaluation privacy personally identifiable information data leakage reconstruction attacks evaluation methodology

攻击个人身份信息脱敏技术研究的可信度困境 / The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

1️⃣ 一句话总结

这篇论文指出，当前关于攻击个人身份信息脱敏技术的研究存在严重的数据泄露和污染问题，夸大了攻击成功率，并认为只有使用真正的私人数据才能客观评估脱敏技术的安全性，但由于隐私限制，公开研究难以透明、可复现地解决这一困境。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14712

1️⃣ 一句话总结

arXiv ID: 2603.14210

1️⃣ 一句话总结

arXiv ID: 2603.14563

1️⃣ 一句话总结

arXiv ID: 2603.11767

1️⃣ 一句话总结

arXiv ID: 2603.11090

1️⃣ 一句话总结

arXiv ID: 2603.10876

1️⃣ 一句话总结

arXiv ID: 2603.10724

1️⃣ 一句话总结

arXiv ID: 2603.10287

1️⃣ 一句话总结

arXiv ID: 2603.09373

1️⃣ 一句话总结

arXiv ID: 2603.08207

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14712 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14210 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11090 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10876 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09373 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08207 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14712

arXiv ID: 2603.14210

arXiv ID: 2603.14563

arXiv ID: 2603.11767

arXiv ID: 2603.11090

arXiv ID: 2603.10876

arXiv ID: 2603.10724

arXiv ID: 2603.10287

arXiv ID: 2603.09373

arXiv ID: 2603.08207