arXiv最新AI论文速览速学

🔍

标签: #multimodal dataset ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: GCA Framework: A Gulf-Grounded Dataset and Agentic Pipeline for Climate Decision Support 04-15

arXiv ID: 2604.12306

arXiv 提交日期: 2026-04-14

llm agents multi-modal climate decision support domain fine-tuning tool-augmented agents geospatial analysis multimodal dataset

GCA框架：一个基于海湾地区的数据集与用于气候决策支持的智能体流程 / GCA Framework: A Gulf-Grounded Dataset and Agentic Pipeline for Climate Decision Support

1️⃣ 一句话总结

这篇论文提出了一个专门针对海湾地区气候决策的框架，它通过整合一个本地化的多模态数据集和一个能调用地理空间分析工具的人工智能体，显著提升了大型语言模型在该区域气候问题上的准确性和实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21803

arXiv 提交日期: 2026-03-23

multi-modal natural language processing computer vision multimodal dataset comedic timing laughter detection gesture analysis temporal alignment

单口喜剧的时机：文本、音频、笑声与动作学（TIC-TALK）：用于喜剧时机多模态研究的流程与数据库 / Timing In stand-up Comedy: Text, Audio, Laughter, Kinesics (TIC-TALK): Pipeline and Database for the Multimodal Study of Comedic Timing

1️⃣ 一句话总结

这篇论文创建了一个名为TIC-TALK的多模态数据库和分析工具，通过自动分析90场单口喜剧表演中的语言、动作和观众笑声，揭示了喜剧表演中‘抖包袱’前演员动作会变少、个人话题比政治话题更能引发笑声等规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21464

arXiv 提交日期: 2026-02-25

audio multi-modal data speech emotion recognition affective computing spontaneous speech multimodal dataset sentiment analysis

iMiGUE-Speech：一个用于情感分析的自发性语音数据集 / iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis

1️⃣ 一句话总结

这篇论文发布了一个名为iMiGUE-Speech的新数据集，它通过记录人们在真实比赛结果后的自然对话来捕捉自发情感，为研究语音和文本中的真实情绪提供了宝贵资源，并可用于多模态情感分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15757

arXiv 提交日期: 2026-02-17

natural language processing multi-modal model evaluation sexism detection multimodal dataset fine-grained classification social media analysis llm evaluation

超越二元分类：检测社交媒体视频中的细粒度性别歧视 / Beyond Binary Classification: Detecting Fine-Grained Sexism in Social Media Videos

1️⃣ 一句话总结

这篇论文通过构建一个包含细粒度标注的西班牙语多模态数据集，并评估多种大语言模型，发现多模态模型能有效识别复杂的性别歧视内容，但在处理视觉信息中的多重歧视类型时仍有困难。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21173

arXiv 提交日期: 2026-01-29

benchmark multi-modal systems industrial inspection safety assessment multimodal dataset anomaly recognition robot perception

InspecSafe-V1：一个用于工业巡检场景安全评估的多模态基准数据集 / InspecSafe-V1: A Multimodal Benchmark for Safety Assessment in Industrial Inspection Scenarios

1️⃣ 一句话总结

这篇论文发布了一个名为InspecSafe-V1的新型多模态基准数据集，它通过收集真实巡检机器人在多种工业场景下的多传感器数据，并提供了像素级标注和安全等级标签，旨在解决现有数据在真实性、多模态和细粒度标注方面的不足，以支持工业AI系统进行更可靠的安全评估和异常识别。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06558

arXiv 提交日期: 2025-12-06

robotics multi-modal agents embodied ai human-robot interaction referring expression comprehension multimodal dataset residual learning

人机交互中的具身指代表达理解 / Embodied Referring Expression Comprehension in Human-Robot Interaction

1️⃣ 一句话总结

这篇论文为了解决机器人理解人类在真实环境中结合语言和手势的指令的难题，创建了一个包含室内外多视角互动的大规模数据集Refer360，并提出了一个名为MuRes的多模态引导残差模块，能有效提升现有模型对这类具身指令的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03000

arXiv 提交日期: 2025-12-02

computer vision multi-modal systems 4d reconstruction dynamic scene understanding video depth estimation bundle adjustment multimodal dataset

DynamicVerse：一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

1️⃣ 一句话总结

这篇论文提出了一个名为DynamicVerse的新框架，它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D（三维+时间）动态世界数据集，从而帮助AI更准确地理解和模拟真实物理世界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.07966

arXiv 提交日期: 2025-09-09

computer vision natural language processing benchmark visual reasoning table images multimodal dataset llm collaboration qa evaluation

Visual-TableQA：面向表格图像推理的开放领域基准 / Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

1️⃣ 一句话总结

这篇论文提出了一个名为Visual-TableQA的大规模开放领域数据集，通过多模型协作的低成本生成方法，专门用于评估和提升视觉语言模型在复杂表格图像上的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.12306

1️⃣ 一句话总结

arXiv ID: 2603.21803

1️⃣ 一句话总结

arXiv ID: 2602.21464

1️⃣ 一句话总结

arXiv ID: 2602.15757

1️⃣ 一句话总结

arXiv ID: 2601.21173

1️⃣ 一句话总结

arXiv ID: 2512.06558

1️⃣ 一句话总结

arXiv ID: 2512.03000

1️⃣ 一句话总结

arXiv ID: 2509.07966

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.12306 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21464 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15757 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06558 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03000 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.07966 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.12306

arXiv ID: 2603.21803

arXiv ID: 2602.21464

arXiv ID: 2602.15757

arXiv ID: 2601.21173

arXiv ID: 2512.06558

arXiv ID: 2512.03000

arXiv ID: 2509.07966