arXiv最新AI论文速览速学

🔍

标签: #medical vqa ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.27720

arXiv 提交日期: 2026-04-30

medical multi-modal model evaluation vision-language models medical vqa grounding failures domain adaptation trustworthiness

对前沿视觉-语言模型在可信医疗视觉问答中的审计：定位失败、格式崩溃与领域适配 / Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

1️⃣ 一句话总结

本研究系统测试了多个顶尖AI模型在医疗图像问答任务中的可靠性，发现模型在识别身体部位和病变位置时表现很差（准确率不足20%），且当模型需要先定位再回答时，由于格式错误和定位不准，回答质量反而下降，但通过专项训练可以显著提升模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20306

arXiv 提交日期: 2026-04-22

medical multi-modal causal inference medical vqa backdoor adjustment instrumental variable confounding bias out-of-distribution generalization

双重因果推断：整合后门调整与工具变量学习的医学视觉问答 / Dual Causal Inference: Integrating Backdoor Adjustment and Instrumental Variable Learning for Medical VQA

1️⃣ 一句话总结

该论文提出了一种名为DCI的因果推理框架，通过结合后门调整和工具变量学习，有效消除了医学视觉问答中由数据混淆产生的虚假相关性，从而提升了模型在跨模态推理中的准确性和鲁棒性，尤其擅长处理分布外数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14866

arXiv 提交日期: 2026-04-16

medical computer vision multi-modal dental imaging vision-language models dataset creation clinical annotation medical vqa

MetaDent：为牙科视觉语言模型标注临床图像 / MetaDent: Labeling Clinical Images for Vision-Language Models in Dentistry

1️⃣ 一句话总结

这篇论文提出了一个名为MetaDent的牙科图像数据集和标注框架，旨在解决牙科领域缺乏精细标注数据的问题，并通过评估发现当前先进的视觉语言模型在理解牙科临床图像细节方面仍存在困难。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22623

arXiv 提交日期: 2026-03-23

medical multi-modal model evaluation vision-language models medical vqa hallucination sycophancy safety evaluation

是同意还是正确？医学视觉语言模型中的基础事实-迎合性权衡 / To Agree or To Be Right? The Grounding-Sycophancy Tradeoff in Medical Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，在医学视觉问答模型中，减少幻觉（即胡编乱造）的能力与抵抗用户压力、坚持正确答案的能力之间存在此消彼长的矛盾，目前没有模型能同时做好这两点，因此尚不适合直接用于临床。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11558

arXiv 提交日期: 2025-12-12

medical multi-modal model training dental ai multimodal llm domain adaptation reinforcement learning medical vqa

DentalGPT：激励牙科领域多模态复杂推理 / DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

1️⃣ 一句话总结

这篇论文提出了一个名为DentalGPT的牙科专用多模态大模型，它通过注入高质量牙科数据和强化学习，显著提升了模型对牙科图像的细节理解与复杂推理能力，从而在疾病分类和问答任务上超越了其他先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27720

1️⃣ 一句话总结

arXiv ID: 2604.20306

1️⃣ 一句话总结

arXiv ID: 2604.14866

1️⃣ 一句话总结

arXiv ID: 2603.22623

1️⃣ 一句话总结

arXiv ID: 2512.11558

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20306 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14866 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11558 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27720

arXiv ID: 2604.20306

arXiv ID: 2604.14866

arXiv ID: 2603.22623

arXiv ID: 2512.11558