arXiv ID:
2603.02097
arXiv 提交日期: 2026-03-02
ClinConsensus:一个基于专家共识、分难度评估中文医疗大语言模型的基准 / ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels
1️⃣ 一句话总结
这篇论文提出了一个由临床专家构建的中文医疗大模型评估基准,它通过覆盖诊疗全流程、多难度等级的开放式案例,并结合创新的评分方法,揭示了当前模型在临床推理和实际应用中的关键短板。