arXiv最新AI论文速览速学

🔍

data ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: TooBad: Backdoor Diffusion Models with Ultra-Low Poison Rate and Imperceptible Trigger 06-23

arXiv ID: 2606.09351

arXiv 提交日期: 2026-06-08

llm machine learning data in-context learning data imputation survey data missing data public opinion

基于上下文学习的大规模语言模型民意数据插补方法 / In-Context Learning for the Imputation of Public Opinion Data with Large Language Models

1️⃣ 一句话总结

本文提出利用大语言模型的上下文学习能力来填补民意调查中的缺失数据，该方法在多种缺失场景下均优于传统统计插补方法（如MICE PMM），尤其在非随机缺失情况下表现更佳，且能生成更窄的置信区间并接近理想的95%覆盖率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09114

arXiv 提交日期: 2026-06-08

natural language processing model training data bias detection chinese language anchor mechanism contextual calibration lgbt dataset

MAAM：面向中文歧视性语言检测的锚点保留压缩与上下文校准机制 / MAAM: Anchor-Preserving Compression and Contextual Calibration for Chinese Discriminatory Language Detection

1️⃣ 一句话总结

本文提出了一种轻量级、模型无关的框架MAAM，它通过模仿视觉模糊机制保留与歧视相关的语义关键信息，并结合上下文先验知识进行校准，从而在中文歧视性语言检测任务上以更小的模型规模取得与大型语言模型相媲美的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09532

arXiv 提交日期: 2026-06-08

data behavior crisis analysis mobility data social media interpretable ai association rules

基于移动性和社交媒体数据的可解释危机行为分析 / Interpretable Crisis Behavior Analysis Using Mobility and Social Media Data

1️⃣ 一句话总结

本文提出了一套将人口移动数据和社交媒体情绪数据相结合的分析框架，能够从危机事件（如野火和疫情）中自动识别出跨领域的规律行为模式，并用通俗的规则加以解释，从而为应急决策提供可操作的情报支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09049

arXiv 提交日期: 2026-06-08

machine learning data confidence interval bootstrap data augmentation approximate invariance conformal prediction

数据增强自助法：通过近似不变性统一置信区间构建 / Data augmented bootstrap: Unifying confidence interval construction by approximate invariance

1️⃣ 一句话总结

本文提出一种名为“数据增强自助法”的统一框架，能将多种现有统计方法（如自助法、共形预测等）和机器学习中常用的数据增强技术联系起来，通过利用数据变换的“近似不变性”来构建置信区间，并在理论上保证了从有限样本到大样本的覆盖效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06007

arXiv 提交日期: 2026-06-04

machine learning data model training diffusion models time series generation score matching sequential data adaptiveness

面向自适应时序数据生成的扩散模型 / Diffusion Models for Adaptive Sequential Data Generation

1️⃣ 一句话总结

本文提出了一种新方法，通过逐步添加和去除噪声，同时依赖已生成的数据来保证时序信息的连贯性，从而让扩散模型能够像真实世界一样按顺序生成时间序列数据，避免提前泄露未来信息，并在金融投资组合等任务中表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05073

arXiv 提交日期: 2026-06-03

machine learning data missing value imputation diffusion model uncertainty-aware tabular data selective imputation

学会什么不该填补：一个面向有意义缺失的感知不确定性扩散框架 / Learning What Not to Impute: An Uncertainty-Aware Diffusion Framework for Meaningful Missingness

1️⃣ 一句话总结

这篇论文提出了一种名为Diff-Joint的扩散模型框架，能够区分数据中“有意义缺失”和“观测缺失”两种类型，并智能地决定哪些空缺应该被填补、哪些应保持原样，从而在提高填补精度的同时保留数据背后的语义信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02577

arXiv 提交日期: 2026-06-01

robotics data video generation robot data synthesis world models embodiment-centric video diffusion models manipulation

RoboDream：面向可扩展机器人数据合成的组合式世界模型 / RoboDream: Compositional World Models for Scalable Robot Data Synthesis

1️⃣ 一句话总结

本文提出了一种名为RoboDream的机器人世界模型，它能基于少量真实数据，通过将机器人运动轨迹与虚拟场景、物体自由组合，自动生成大量逼真的新演示数据，从而大幅降低机器人学习所需的人工数据采集成本和耗时。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02253

arXiv 提交日期: 2026-06-01

systems data ontology circular economy semantic interoperability knowledge representation cross-industry

循环经济本体网络 / CEON: Circular Economy Ontology Network

1️⃣ 一句话总结

本文提出了一个名为CEON的本体网络，通过定义跨行业、跨产品生命周期的通用概念和语义标准，来解决不同行业之间在共享循环经济相关数据时面临的互操作性问题，从而支持产品复用、翻新和回收等循环策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02184

arXiv 提交日期: 2026-06-01

llm machine learning data name priors correlated generation ghost authors fabricated records doi metadata

幽灵搭档：大语言模型中的相关性名字先验及其对网络与学术出版的困扰 / The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing

1️⃣ 一句话总结

这篇论文发现，大语言模型在生成虚构专家时会固定地重复使用特定的名字组合（如埃琳娜·瓦斯奎兹和马库斯·陈），这些名字对在不同模型家族中有各自的配对模式，并且这些“幽灵名字”已经大量出现在学术数据库（如Zenodo）和科研社交网站（如ResearchGate）中，形成了虚假的论文和作者档案，可能误导学术搜索和引用系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02379

arXiv 提交日期: 2026-06-01

computer vision data model training metric depth estimation scale-collapse monocular geometry dataset curation poisson completion

哎呀，我把凯旋门变小了！——用新数据集破解单目深度估计的“尺度崩塌”难题 / Honey, I Shrunk the Arc de Triomphe!

1️⃣ 一句话总结

本文发现当前AI模型在测量远方物体大小时会出现“尺度崩塌”（比如把远处的凯旋门估测得矮小），原因主要是训练数据不够真实多样，于是研究者从网络照片和立体影像中收集真实数据，创建了MetricScenes数据集，并用新算法修复深度图，成功提升了模型在真实开放场景下对距离和尺寸的测量精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09351

1️⃣ 一句话总结

arXiv ID: 2606.09114

1️⃣ 一句话总结

arXiv ID: 2606.09532

1️⃣ 一句话总结

arXiv ID: 2606.09049

1️⃣ 一句话总结

arXiv ID: 2606.06007

1️⃣ 一句话总结

arXiv ID: 2606.05073

1️⃣ 一句话总结

arXiv ID: 2606.02577

1️⃣ 一句话总结

arXiv ID: 2606.02253

1️⃣ 一句话总结

arXiv ID: 2606.02184

1️⃣ 一句话总结

arXiv ID: 2606.02379

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09351 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09049 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06007 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05073 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02253 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02379 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09351

arXiv ID: 2606.09114

arXiv ID: 2606.09532

arXiv ID: 2606.09049

arXiv ID: 2606.06007

arXiv ID: 2606.05073

arXiv ID: 2606.02577

arXiv ID: 2606.02253

arXiv ID: 2606.02184

arXiv ID: 2606.02379