arXiv ID:
2606.24155
arXiv 提交日期: 2026-06-23
MedBench v5:面向临床多模态模型的动态、过程导向且能感知幻觉的基准测试 / MedBench v5: A Dynamic, Process-Oriented, and Hallucination-Aware Benchmark for Clinical Multimodal Models
1️⃣ 一句话总结
本研究提出了一个新型医学AI评估框架,通过引入动态过程审计、可控信息干扰和幻觉传播监控,揭示了当前顶尖模型在看似整体表现良好时,其实在诊断推理过程中存在脆弱性,尤其容易受到信息矛盾、遗漏和延迟等干扰的影响。