arXiv ID:
2604.18418
arXiv 提交日期: 2026-04-20
MedProbeBench:面向专家级医学指南的深度证据整合系统性基准测试 / MedProbeBench: Systematic Benchmarking at Deep Evidence Integration for Expert-level Medical Guideline
1️⃣ 一句话总结
本文提出了首个专门评估大语言模型在医学领域进行多步骤证据整合并生成专家级临床指南能力的基准测试平台MedProbeBench,通过1200多项评分标准和5100多个细粒度事实核查点,系统揭示了当前顶尖AI模型与真实专家水平之间的显著差距。