arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 200 72小时内新更新论文 72h更新 205 最新: Video-CoE: Reinforcing Video Event Prediction via Chain of Events 03-17

arXiv ID: 2603.09320

arXiv 提交日期: 2026-03-10

computer vision multi-modal benchmark spacecraft perception pose estimation semantic segmentation dataset simulation

SpaceSense-Bench：一个用于航天器感知与姿态估计的大规模多模态基准数据集 / SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

1️⃣ 一句话总结

这篇论文提出了一个名为SpaceSense-Bench的大规模、多模态航天器感知基准数据集，它通过高保真模拟生成了包含多种传感器数据和详细标注的数据，用于评估和推动航天器视觉感知与姿态估计技术的发展，并发现当前方法在识别小部件和泛化到新航天器方面仍面临挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09316

arXiv 提交日期: 2026-03-10

medical multi-modal model training medical image segmentation missing modalities consistency learning multimodal fusion robustness

CLoE：面向缺失模态分割的专家一致性学习 / CLoE: Expert Consistency Learning for Missing Modality Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为CLoE的新方法，通过强制不同医学影像模态的‘专家’模型在决策层面保持高度一致，解决了多模态分割中某些影像数据缺失时性能下降的问题，尤其提升了在关键小病灶区域上的分割鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09471

arXiv 提交日期: 2026-03-10

multi-modal benchmark model evaluation vision-language models remote sensing geospatial tasks earth observation vqa evaluation

OmniEarth：一个用于评估视觉语言模型在地理空间任务中表现的基准 / OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为OmniEarth的综合性基准测试，专门用于系统评估视觉语言模型在遥感与地球观测等复杂地理空间任务中的感知、推理和鲁棒性能力，揭示了现有模型在此领域的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09095

arXiv 提交日期: 2026-03-10

multi-modal llm model evaluation modality gap visual text understanding self-distillation benchmark error analysis

阅读而非思考：理解并弥合多模态大语言模型中文本图像化时的模态鸿沟 / Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

1️⃣ 一句话总结

这篇论文发现，当文本以图像形式输入时，多模态大语言模型会因字体、分辨率等视觉因素导致“阅读”能力下降，尤其是在数学任务上，而通过一种自蒸馏训练方法，可以让模型基于图像输入恢复出接近纯文本模式的推理能力，从而显著提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09702

arXiv 提交日期: 2026-03-10

medical computer vision multi-modal medical image fusion super-resolution diffusion models wavelet transform multimodal fusion

TriFusion-SR：联合三模态医学图像融合与超分辨率 / TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

1️⃣ 一句话总结

这篇论文提出了一种名为TriFusionSR的新方法，它通过一个基于小波变换和条件扩散模型的框架，将三种不同医学图像的融合与分辨率提升两个步骤合二为一，有效解决了传统分步处理导致的图像质量下降问题，从而获得了更清晰、信息更全面的融合图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09874

arXiv 提交日期: 2026-03-10

multi-modal benchmark model evaluation affective computing missing modalities modality imbalance sentiment analysis emotion recognition

MissBench：不平衡缺失模态下的多模态情感分析基准测试 / MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

1️⃣ 一句话总结

这篇论文提出了一个名为MissBench的基准测试框架，用于评估多模态情感分析模型在现实场景中不同模态（如文本、声音、图像）缺失率不平衡时的性能，并引入了两个诊断指标来量化模型对不同模态的公平利用程度和训练过程中的优化平衡性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09827

arXiv 提交日期: 2026-03-10

multi-modal agents benchmark egocentric video multi-agent systems question answering video understanding embodied ai

MA-EgoQA：基于多智能体第一视角视频的问答 / MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MA-EgoQA的新基准测试和数据集，用于评估人工智能模型如何同时理解和回答基于多个智能体第一视角视频的问题，并发现现有模型在这方面存在显著不足，从而为未来多智能体协作系统的开发指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09414

arXiv 提交日期: 2026-03-10

computer vision natural language processing multi-modal document layout analysis domain adaptation prompt engineering document understanding visual document processing

PromptDLA：一个以描述性知识为线索的领域感知提示文档布局分析框架 / PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

1️⃣ 一句话总结

这篇论文提出了一个名为PromptDLA的新框架，它通过一个能根据数据领域特点自动生成提示的‘领域感知提示器’，将领域先验知识作为线索来指导模型，从而有效提升了文档布局分析模型在混合不同领域数据训练时的泛化能力和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09512

arXiv 提交日期: 2026-03-10

multi-modal model evaluation agents vision-language models autonomous driving temporal reasoning benchmark consistency evaluation

探究驾驶视觉语言模型的可靠性：从不一致响应到基于时间的推理 / Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

1️⃣ 一句话总结

这篇论文研究发现，当前用作驾驶助手的视觉语言模型存在回答不稳定和缺乏时间推理能力的问题，作者通过创建新数据集并提出一种自我监督的改进方法，旨在提升模型在驾驶场景中的可靠决策能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08827

arXiv 提交日期: 2026-03-09

computer vision systems multi-modal smart parking object detection inverse perspective mapping yolov8 urban infrastructure

基于计算机视觉和透视映射的车辆分配系统 / Computer Vision-Based Vehicle Allotment System using Perspective Mapping

1️⃣ 一句话总结

这篇论文提出了一种利用计算机视觉和透视映射技术的新型智能停车系统，它通过整合多个摄像头视图来实时检测空车位，并以三维可视化方式引导用户停车，旨在以低成本、高适应性的方案缓解城市拥堵问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09320

1️⃣ 一句话总结

arXiv ID: 2603.09316

1️⃣ 一句话总结

arXiv ID: 2603.09471

1️⃣ 一句话总结

arXiv ID: 2603.09095

1️⃣ 一句话总结

arXiv ID: 2603.09702

1️⃣ 一句话总结

arXiv ID: 2603.09874

1️⃣ 一句话总结

arXiv ID: 2603.09827

1️⃣ 一句话总结

arXiv ID: 2603.09414

1️⃣ 一句话总结

arXiv ID: 2603.09512

1️⃣ 一句话总结

arXiv ID: 2603.08827

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09320 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09316 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09471 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09095 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09874 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09414 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09512 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08827 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09320

arXiv ID: 2603.09316

arXiv ID: 2603.09471

arXiv ID: 2603.09095

arXiv ID: 2603.09702

arXiv ID: 2603.09874

arXiv ID: 2603.09827

arXiv ID: 2603.09414

arXiv ID: 2603.09512

arXiv ID: 2603.08827