arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.27720

arXiv 提交日期: 2026-04-30

medical multi-modal model evaluation vision-language models medical vqa grounding failures domain adaptation trustworthiness

对前沿视觉-语言模型在可信医疗视觉问答中的审计：定位失败、格式崩溃与领域适配 / Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

1️⃣ 一句话总结

本研究系统测试了多个顶尖AI模型在医疗图像问答任务中的可靠性，发现模型在识别身体部位和病变位置时表现很差（准确率不足20%），且当模型需要先定位再回答时，由于格式错误和定位不准，回答质量反而下降，但通过专项训练可以显著提升模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.28102

arXiv 提交日期: 2026-04-30

machine learning multi-modal vehicle routing multi-depot multi-task learning transformer optimization

特征级线性调制：面向跨问题多车场车辆路径问题的统一神经求解方法 / FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing

1️⃣ 一句话总结

该论文提出了一种名为FiLMMeD的神经网络模型，通过引入特征级线性调制技术，让模型能根据不同的约束条件动态调整内部处理方式，从而统一高效地求解多达24种不同变体的多车场车辆路径问题，并在性能上超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27323

arXiv 提交日期: 2026-04-30

computer vision multi-modal machine learning hyperspectral image sar/lidar multi-source fusion spectral band selection land-cover classification

面向多源遥感图像分类的代表性光谱关联网络 / Representative Spectral Correlation Network for Multi-source Remote Sensing Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为RSCNet的新型网络框架，通过智能选择高光谱图像中最关键的光谱波段，并让这些波段与SAR或LiDAR等其它遥感数据自适应融合，从而在降低计算成本的同时显著提升地物分类的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27654

arXiv 提交日期: 2026-04-30

medical machine learning multi-modal medical image registration ct-mri registration rigid-deformable hybrid cervical spine dataset

MSR：面向颈椎CT-MRI刚柔混合配准的混合场建模及标注数据集 / MSR:Hybrid Field Modeling for CT-MRI Rigid-Deformable Registration of the Cervical Spine with an Annotated Dataset

1️⃣ 一句话总结

本文提出了一个名为MSR的刚柔混合配准框架，通过融合刚性对齐与可变形建模，并结合自研的CT-MRI标注数据集，有效解决了颈椎区域医学图像配准中局部结构保真度与全局一致性难以兼得的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27445

arXiv 提交日期: 2026-04-30

machine learning agents multi-modal intent inference bayesian methods non-speaking agents product-of-experts context prior

上下文作为先验：针对非语言智能体基于贝叶斯启发的意图推断——以家猫测试平台为例 / Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed

1️⃣ 一句话总结

本文提出了一种受贝叶斯思想启发的概率模型CatSignal，通过将环境上下文视为先验知识、行为观测视为证据，来推断无法用语言交流的智能体（如家猫）的意图，实验证明该方法比传统融合方式更准确，并能有效减少因过度依赖上下文而导致的错误预测。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27724

arXiv 提交日期: 2026-04-30

medical multi-modal retrieval augmented generation medical qa visual retrieval iterative reasoning page-level retrieval benchmark

迭代式多模态检索增强生成用于医疗问答 / Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering

1️⃣ 一句话总结

本文提出了一种名为MED-VRAG的新框架，它通过直接检索医学文献中的整页图像（而非仅提取文本），并利用视觉语言模型进行多轮推理和记忆累积，在多个医疗问答基准测试上显著提升了准确率，证明了图像信息对医疗知识问答的重要价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27553

arXiv 提交日期: 2026-04-30

multi-modal model evaluation large visual language model text style attribute description style leakage visual text

揭示视觉文本样式对大型视觉语言模型生成属性描述的影响 / Revealing the Impact of Visual Text Style on Attribute-based Descriptions Produced by Large Visual Language Models

1️⃣ 一句话总结

本研究通过实验发现，即使大型视觉语言模型能正确识别图片中的文字内容，文字的视觉样式（如字体、颜色、大小）仍会显著影响模型对该文字所指概念生成的属性描述，表明模型存在“样式泄漏”问题，亟需引入样式感知的评估与缓解策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27606

arXiv 提交日期: 2026-04-30

machine learning multi-modal systems tabular data contrastive learning self-supervised learning remote sensing feature encoding

ZAYAN：面向表格遥感数据的解耦对比变换器 / ZAYAN: Disentangled Contrastive Transformer for Tabular Remote Sensing Data

1️⃣ 一句话总结

该论文提出了一种名为ZAYAN的自监督学习框架，通过在特征层面而非样本层面进行对比学习，有效解决了遥感表格数据中异质性高、标签稀缺和特征冗余的问题，并在多个数据集上取得了优于现有方法的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26382

arXiv 提交日期: 2026-04-29

systems model evaluation multi-modal document ai benchmark retrieval-augmented generation evaluation framework enterprise

面向复杂多模态文档处理流程的基准测试：企业AI的统一评估框架 / Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI

1️⃣ 一句话总结

本文提出了一个名为EnterpriseDocBench的统一评估框架，用于测试企业文档AI处理流水线（解析、索引、检索、生成）的整体性能，发现混合检索的表现略优于传统BM25方法，而幻觉率并非随文档长度单调增加，且系统回答虽准确但经常遗漏关键内容，揭示了各阶段之间质量并不像预期那样相互级联传递。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26341

arXiv 提交日期: 2026-04-29

computer vision multi-modal image generation 3d geometric awareness spatial understanding depth estimation mixture-of-transformers unified generation

SpatialFusion：赋予统一图像生成模型内在的3D几何感知能力 / SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness

1️⃣ 一句话总结

本文提出SpatialFusion框架，通过在统一图像生成模型中引入并行空间变换器来学习深度信息，并将这些几何约束注入扩散模型，使得生成的图像在空间一致性上显著超越GPT-4o等现有模型，同时不增加额外推理开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27720

1️⃣ 一句话总结

arXiv ID: 2604.28102

1️⃣ 一句话总结

arXiv ID: 2604.27323

1️⃣ 一句话总结

arXiv ID: 2604.27654

1️⃣ 一句话总结

arXiv ID: 2604.27445

1️⃣ 一句话总结

arXiv ID: 2604.27724

1️⃣ 一句话总结

arXiv ID: 2604.27553

1️⃣ 一句话总结

arXiv ID: 2604.27606

1️⃣ 一句话总结

arXiv ID: 2604.26382

1️⃣ 一句话总结

arXiv ID: 2604.26341

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.28102 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27654 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27445 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27606 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26341 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27720

arXiv ID: 2604.28102

arXiv ID: 2604.27323

arXiv ID: 2604.27654

arXiv ID: 2604.27445

arXiv ID: 2604.27724

arXiv ID: 2604.27553

arXiv ID: 2604.27606

arXiv ID: 2604.26382

arXiv ID: 2604.26341