arXiv最新AI论文速览速学

🔍

标签: #data ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Hyper-Dimensional Fingerprints as Molecular Representations 05-03

arXiv ID: 2603.02184

arXiv 提交日期: 2026-03-02

machine learning benchmark data conversion rate prediction multi-attribution learning recommender systems dataset online advertising

MAC：一个包含多种归因机制标签的转化率预测基准数据集 / MAC: A Conversion Rate Prediction Benchmark Featuring Labels Under Multiple Attribution Mechanisms

1️⃣ 一句话总结

这篇论文提出了首个包含多种归因机制标签的公开转化率预测基准数据集MAC，并基于此发现多归因学习能有效提升模型性能，尤其是对转化路径长的用户，同时提出了一个名为MoAE的新方法，显著超越了现有最佳技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02174

arXiv 提交日期: 2026-03-02

machine learning theory data causal inference simpson's paradox interpretability observational data recursive partitioning

解悖树：通过基于核的分区算法破解辛普森悖论 / De-paradox Tree: Breaking Down Simpson's Paradox via A Kernel-Based Partition Algorithm

1️⃣ 一句话总结

这篇论文提出了一种名为‘解悖树’的可解释算法，它能自动发现并解释数据中因混杂因素和子群差异导致的辛普森悖论现象，帮助非专家用户在复杂观测数据中做出更可靠的决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02010

arXiv 提交日期: 2026-03-02

theory data model evaluation differential privacy exponential families uncertainty quantification sufficient statistics synthetic data

指数族中基于差分隐私充分统计量的噪声校准推断 / Noise-Calibrated Inference from Differentially Private Sufficient Statistics in Exponential Families

1️⃣ 一句话总结

这篇论文提出了一种在保护数据隐私的同时进行可靠统计推断的新方法：先发布经过差分隐私处理的“充分统计量”，然后利用这些带有噪声的数据进行校准，从而生成可信的统计结论或合成数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01910

arXiv 提交日期: 2026-03-02

llm natural language processing data retrieval augmented generation multilingual evaluation culturally aware knowledge small language models question answering

FLANS在SemEval-2026任务7中的实践：利用开源小型大语言模型与检索增强生成技术处理多语言与跨文化的日常知识问答 / FLANS at SemEval-2026 Task 7: RAG with Open-Sourced Smaller LLMs for Everyday Knowledge Across Diverse Languages and Cultures

1️⃣ 一句话总结

这篇论文介绍了团队在SemEval-2025跨文化日常知识问答任务中，通过构建一个包含文化感知知识的本地知识库，并融合在线搜索，利用开源小型大语言模型结合检索增强生成技术，在英语、西班牙语和中文的简答与选择题上进行了有效尝试，旨在平衡性能、隐私与可持续性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23286

arXiv 提交日期: 2026-02-26

natural language processing benchmark data question answering table-text reasoning multi-hop reasoning benchmark generation sql-to-text

SPARTA：一种面向文本与表格的、可扩展且原理化的树状多跳问答基准测试 / SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

1️⃣ 一句话总结

这篇论文提出了一个名为SPARTA的自动化框架，它能高效生成大规模、高质量的跨文本和表格的多跳复杂问答数据集，用于更真实地评估模型在需要聚合、分组和深层推理等高级操作上的能力，并揭示了当前先进模型在此类任务上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23357

arXiv 提交日期: 2026-02-26

computer vision model training data event cameras object detection sensor generalization joint distribution training adaptive sensing

通过联合分布训练实现基于事件的目标检测中自适应感知的传感器泛化 / Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

1️⃣ 一句话总结

这篇论文研究了事件相机内部参数如何影响目标检测模型的性能，并提出了一种训练方法，使模型能适应不同传感器的信号特性，从而提升其通用性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22045

arXiv 提交日期: 2026-02-25

natural language processing data systems domain-specific corpus distributed ledger technology named entity recognition technology emergence text mining

DLT-Corpus：一个用于分布式账本技术领域的大规模文本集合 / DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

1️⃣ 一句话总结

这篇论文构建了迄今为止最大的分布式账本技术领域专用文本数据集，并通过分析发现该领域的技术发展遵循从科研到专利再到社会传播的传统路径，且科研创新独立于市场波动，是驱动行业长期增长的关键。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21464

arXiv 提交日期: 2026-02-25

audio multi-modal data speech emotion recognition affective computing spontaneous speech multimodal dataset sentiment analysis

iMiGUE-Speech：一个用于情感分析的自发性语音数据集 / iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis

1️⃣ 一句话总结

这篇论文发布了一个名为iMiGUE-Speech的新数据集，它通过记录人们在真实比赛结果后的自然对话来捕捉自发情感，为研究语音和文本中的真实情绪提供了宝贵资源，并可用于多模态情感分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21709

arXiv 提交日期: 2026-02-25

computer vision natural language processing data semantic segmentation forest stand delineation remote sensing u-net aerial imagery

评估机载激光扫描与航空摄影测量在基于深度学习的林分区划中的应用 / Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

1️⃣ 一句话总结

这项研究发现，在利用深度学习自动划分森林区域时，使用航空摄影测量生成的数据与更精确的激光扫描数据效果相当，且加入地形信息并未提升效果，表明该方法对输入数据的变化具有鲁棒性，有助于构建大规模数据集。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22083

arXiv 提交日期: 2026-02-25

theory machine learning data causal inference discretization bias functional estimation mediation analysis nonparametric identification

因果函数中变量离散化导致的粗化偏差 / Coarsening Bias from Variable Discretization in Causal Functionals

1️⃣ 一句话总结

这篇论文指出，在因果推断中，为了计算方便而将连续变量离散化会引入显著的近似偏差，并提出了一种通过评估组内条件均值来消除主要偏差项的简单方法，从而大幅提高了估计精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02184

1️⃣ 一句话总结

arXiv ID: 2603.02174

1️⃣ 一句话总结

arXiv ID: 2603.02010

1️⃣ 一句话总结

arXiv ID: 2603.01910

1️⃣ 一句话总结

arXiv ID: 2602.23286

1️⃣ 一句话总结

arXiv ID: 2602.23357

1️⃣ 一句话总结

arXiv ID: 2602.22045

1️⃣ 一句话总结

arXiv ID: 2602.21464

1️⃣ 一句话总结

arXiv ID: 2602.21709

1️⃣ 一句话总结

arXiv ID: 2602.22083

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02174 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02010 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01910 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23286 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23357 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22045 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21464 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21709 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22083 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02184

arXiv ID: 2603.02174

arXiv ID: 2603.02010

arXiv ID: 2603.01910

arXiv ID: 2602.23286

arXiv ID: 2602.23357

arXiv ID: 2602.22045

arXiv ID: 2602.21464

arXiv ID: 2602.21709

arXiv ID: 2602.22083