arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.21530

arXiv 提交日期: 2026-04-23

medical multi-modal machine learning lung adenocarcinoma multiple instance learning whole slide images attention mechanism pathology foundation models

基于注意力机制的多示例学习：利用基础模型预测肺腺癌全切片图像中的主要生长模式 / Attention-based multiple instance learning for predominant growth pattern prediction in lung adenocarcinoma wsi using foundation models

1️⃣ 一句话总结

本研究提出一种基于注意力机制的多示例学习方法，通过整合预训练的病理基础模型，仅利用全切片级别的标注即可自动预测肺腺癌的主要生长模式，减轻了对大量精细标注的依赖，并取得了优于传统方法的预测性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21806

arXiv 提交日期: 2026-04-23

multi-modal information retrieval machine learning composed image retrieval multi-modification entity alignment dataset construction efficiency

TEMA：锚定图像、跟随文本的多模态图像检索方法 / TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

1️⃣ 一句话总结

这篇论文提出了一种名为TEMA的新型图像检索框架，专门解决现有方法在用户同时提出多个修改要求时表现不佳的问题，并通过构建两个多修改数据集和一种高效的文本-图像匹配架构，在保持检索精度的同时大幅提升了处理复杂多模态查询的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21767

arXiv 提交日期: 2026-04-23

multi-modal natural language processing video misinformation detection audio transcript span detection dataset video analysis

基于音频转录的视频错误信息跨度检测 / Misinformation Span Detection in Videos via Audio Transcripts

1️⃣ 一句话总结

本文提出了一种新方法，通过将视频中的音频转录为文本，利用自然语言处理模型精确识别视频中哪一段内容含有错误信息，而不仅仅是判断整个视频是否虚假，从而帮助事实核查人员更高效地定位问题内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21326

arXiv 提交日期: 2026-04-23

multi-modal machine learning model training multimodal retrieval modality collapse semantic misalignment fusion-in-decoder robust training

MiMIC：在通用多模态检索中缓解视觉模态崩塌同时避免语义错位 / MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment

1️⃣ 一句话总结

本文提出了一种名为MiMIC的新方法，通过改造多模态融合结构（融合-解码器架构）和加入两种数据增强策略（单模态混合与随机标题丢弃），同时解决了现有通用多模态检索方法中“模型忽略图像、只依赖文本”或“相关图像与文本在空间中距离过远”两大问题，在多项检索任务上取得了更优效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21396

arXiv 提交日期: 2026-04-23

multi-modal model evaluation data visual reasoning chain-of-thought benchmark grounding large vision-language model

视觉接地思维链：通过基于证据的多步推理实现可信的视觉推理 / VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought

1️⃣ 一句话总结

本文提出了一种名为VG-CoT的全自动方法，能够为每张图片生成一个多步推理链，其中每个推理步骤都精确对应到图片中的具体区域或文字，从而帮助AI模型做出更可信、有据可查的视觉判断，并大幅降低了人工标注成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21346

arXiv 提交日期: 2026-04-23

llm machine learning multi-modal abstract visual reasoning bongard problems symbolic grounding representation bottleneck vlm evaluation

符号化锚定揭示抽象视觉推理中的表征瓶颈 / Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning

1️⃣ 一句话总结

该研究通过对比视觉-语言模型直接处理图像与大型语言模型处理从图像中提取的符号化输入，发现抽象视觉推理的主要瓶颈不在于模型自身的推理能力，而在于如何将视觉信息转化为有效的符号表征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20146

arXiv 提交日期: 2026-04-22

multi-modal natural language processing agents named entity recognition grounded multimodal self-aware reasoning reinforcement learning knowledge retrieval

SAKE：基于自我意识的知识利用与探索融合方法用于多模态命名实体识别 / SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

1️⃣ 一句话总结

本文提出了一种名为SAKE的智能框架，通过让模型自我评估知识盲点，并在必要时自主决定查询外部信息，从而有效融合内部知识和外部搜索来解决社交媒体中罕见、新出现实体的识别难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21082

arXiv 提交日期: 2026-04-22

medical multi-modal model training report generation vision-language model token reweighting data efficiency loss function

权衡重要内容：通过令牌重加权提升医学报告生成的样本效率 / Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

1️⃣ 一句话总结

本文提出了一种简单的加权损失函数方法，在医学报告生成中通过给关键临床词汇更高权重，使模型仅用十分之一的训练数据就能达到与标准方法相当的报告质量，大幅提升了数据利用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20719

arXiv 提交日期: 2026-04-22

multi-modal benchmark music intelligence omnimodal notation processing evaluation western bias

ONOTE：面向专家级音乐智能的全模态符号处理基准测试 / ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

1️⃣ 一句话总结

本文提出了一个名为ONOTE的全新基准测试，它通过一种基于音高投影的确定性评估方法，客观衡量AI系统在处理音乐符号（包括听觉、视觉和符号三种模态）时的真实理解能力，并揭示了当前顶尖多模态模型在感知准确性与深层音乐逻辑之间存在的严重脱节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20749

arXiv 提交日期: 2026-04-22

llm multi-modal natural language processing conversational recommendation preference reasoning scene understanding bayesian inference benchmark

在哪里和推荐什么：情境化对话推荐中的动态隐含偏好推理 / Where and What: Reasoning Dynamic and Implicit Preferences in Situated Conversational Recommendation

1️⃣ 一句话总结

本文提出了一种名为SiPeR的新框架，在基于场景的对话推荐中，通过判断当前环境是否满足用户需求（“在哪里”），并结合大模型推理用户对候选物品的潜在偏好（“推荐什么”），从而更准确地把握推荐时机和内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21530

1️⃣ 一句话总结

arXiv ID: 2604.21806

1️⃣ 一句话总结

arXiv ID: 2604.21767

1️⃣ 一句话总结

arXiv ID: 2604.21326

1️⃣ 一句话总结

arXiv ID: 2604.21396

1️⃣ 一句话总结

arXiv ID: 2604.21346

1️⃣ 一句话总结

arXiv ID: 2604.20146

1️⃣ 一句话总结

arXiv ID: 2604.21082

1️⃣ 一句话总结

arXiv ID: 2604.20719

1️⃣ 一句话总结

arXiv ID: 2604.20749

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21530 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21806 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21326 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21396 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21082 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20719 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20749 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21530

arXiv ID: 2604.21806

arXiv ID: 2604.21767

arXiv ID: 2604.21326

arXiv ID: 2604.21396

arXiv ID: 2604.21346

arXiv ID: 2604.20146

arXiv ID: 2604.21082

arXiv ID: 2604.20719

arXiv ID: 2604.20749