arXiv ID:
2604.27720
对前沿视觉-语言模型在可信医疗视觉问答中的审计:定位失败、格式崩溃与领域适配 / Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation
1️⃣ 一句话总结
本研究系统测试了多个顶尖AI模型在医疗图像问答任务中的可靠性,发现模型在识别身体部位和病变位置时表现很差(准确率不足20%),且当模型需要先定位再回答时,由于格式错误和定位不准,回答质量反而下降,但通过专项训练可以显著提升模型的表现。