arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 127 最新: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting 03-22

arXiv ID: 2602.21647

arXiv 提交日期: 2026-02-25

natural language processing audio multi-modal speech-to-text translation punctuation restoration low-resource languages cascaded systems automatic speech recognition

缓解低资源尼泊尔语-英语语音翻译中的结构噪声：一种带标点恢复功能的优化级联流水线 / Mitigating Structural Noise in Low-Resource S2TT: An Optimized Cascaded Nepali-English Pipeline with Punctuation Restoration

1️⃣ 一句话总结

这篇论文通过为尼泊尔语到英语的语音翻译系统增加一个标点恢复模块，有效解决了自动语音识别导致的断句混乱问题，显著提升了翻译质量，为低资源语言的语音翻译提供了一个优化方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21858

arXiv 提交日期: 2026-02-25

agents benchmark multi-modal mobile agents proactive intelligence multimodal llm evaluation benchmark function calling

ProactiveMobile：一个用于提升移动设备主动智能的综合基准 / ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices

1️⃣ 一句话总结

这篇论文提出了一个名为ProactiveMobile的综合性基准测试，旨在推动移动设备从被动执行指令向主动预测用户需求并执行行动的智能范式转变，并通过实验证明当前主流模型在此能力上普遍不足，但可以通过学习来提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22013

arXiv 提交日期: 2026-02-25

multi-modal natural language processing model evaluation retrieval-augmented generation vision-language models robustness causal representation learning benchmark

RobustVisRAG：视觉退化下基于因果感知的视觉检索增强生成 / RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

1️⃣ 一句话总结

这篇论文提出了一个名为RobustVisRAG的新框架，它通过因果推理将图像中的语义信息和退化失真（如模糊、噪声）分离开来，从而显著提升了视觉检索增强生成系统在图像质量不佳时的稳定性和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21589

arXiv 提交日期: 2026-02-25

computer vision multi-modal systems hd map prediction multimodal fusion bev features robust perception autonomous driving

SEF-MAP：用于鲁棒多模态高清地图预测的子空间分解专家融合方法 / SEF-MAP: Subspace-Decomposed Expert Fusion for Robust Multimodal HD Map Prediction

1️⃣ 一句话总结

这篇论文提出了一种名为SEF-MAP的新方法，它通过将不同传感器（如摄像头和激光雷达）的数据特征分解到不同的语义子空间，并让专门的‘专家’模块分别处理，再智能地融合结果，从而在各种恶劣条件下都能更可靠、更准确地预测自动驾驶所需的高清地图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21819

arXiv 提交日期: 2026-02-25

medical computer vision multi-modal brain activity decoding fmri-to-video reconstruction semantic guidance temporal coherence neural decoding

SemVideo：通过分层语义引导从大脑活动中重建你所观看的内容 / SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

1️⃣ 一句话总结

这篇论文提出了一个名为SemVideo的新框架，它利用从原始视频中提取的多层次语义信息（如静态描述、运动叙事和整体摘要）来引导解码大脑活动信号，从而更准确、连贯地重建出人们观看的动态视频内容，解决了以往方法在物体外观一致性和时间连贯性上的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21137

arXiv 提交日期: 2026-02-24

video benchmark multi-modal video question answering spatio-temporal reasoning urban traffic dataset privacy preservation

UDVideoQA：一个用于城市动态多目标时空推理的交通视频问答数据集 / UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

1️⃣ 一句话总结

这篇论文提出了一个名为UDVideoQA的新数据集，它基于真实城市交通视频，通过大量问答对来系统评估AI模型在视觉理解和因果推理方面的能力，并发现当前先进模型在基础感知和复杂推理之间存在明显差距，而使用该数据集微调较小的模型可以有效弥补这一不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22246

arXiv 提交日期: 2026-02-24

multi-modal model training model evaluation backdoor defense diffusion models multimodal language models security self-purification

自净化缓解多模态扩散语言模型中的后门攻击 / Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为DiSP的自净化防御框架，它能在不依赖额外模型或干净数据的情况下，通过选择性屏蔽视觉标记和微调，有效消除多模态扩散语言模型中的后门攻击，将攻击成功率从90%以上降至5%以下。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20877

arXiv 提交日期: 2026-02-24

multi-modal systems model training multimodal knowledge graph recommender systems graph neural networks e-commerce representation learning

E-MMKGR：一个面向电子商务应用的统一多模态知识图谱框架 / E-MMKGR: A Unified Multimodal Knowledge Graph Framework for E-commerce Applications

1️⃣ 一句话总结

这篇论文提出了一个名为E-MMKGR的框架，它通过构建一个电商专用的多模态知识图谱并学习统一的商品表示，有效解决了现有多模态推荐系统在模态扩展和任务通用性上的局限，从而在推荐和商品搜索等多个任务上取得了显著效果提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20873

arXiv 提交日期: 2026-02-24

medical computer vision multi-modal computational pathology few-shot learning vision-language models whole slide image semantic enhancement

MUSE：利用精确且多样化的语义进行少样本全切片图像分类 / MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为MUSE的新方法，它通过为每个病理图像样本生成精细化的语义描述，并动态引入多样化的文本知识进行训练，从而在标注数据极少的情况下，显著提升了全切片病理图像的分类效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20980

arXiv 提交日期: 2026-02-24

multi-modal model training natural language processing multimodal llms latent reasoning visual semantics attention alignment visual understanding

CrystaL：多模态大语言模型中视觉潜在特征的自发涌现 / CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

1️⃣ 一句话总结

这篇论文提出了一个名为CrystaL的单阶段框架，它通过并行处理完整图像和受损图像并显式对齐其内部注意力与预测，使得多模态大模型能够在无需额外标注的情况下，自发地在推理过程中形成并保留与任务高度相关的关键视觉语义信息，从而显著提升了模型在细粒度视觉理解任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21647

1️⃣ 一句话总结

arXiv ID: 2602.21858

1️⃣ 一句话总结

arXiv ID: 2602.22013

1️⃣ 一句话总结

arXiv ID: 2602.21589

1️⃣ 一句话总结

arXiv ID: 2602.21819

1️⃣ 一句话总结

arXiv ID: 2602.21137

1️⃣ 一句话总结

arXiv ID: 2602.22246

1️⃣ 一句话总结

arXiv ID: 2602.20877

1️⃣ 一句话总结

arXiv ID: 2602.20873

1️⃣ 一句话总结

arXiv ID: 2602.20980

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21647 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21589 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21137 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22246 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20980 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21647

arXiv ID: 2602.21858

arXiv ID: 2602.22013

arXiv ID: 2602.21589

arXiv ID: 2602.21819

arXiv ID: 2602.21137

arXiv ID: 2602.22246

arXiv ID: 2602.20877

arXiv ID: 2602.20873

arXiv ID: 2602.20980