arXiv ID:
2602.22771
arXiv 提交日期: 2026-02-26
ClinDet-Bench:超越弃权,评估大语言模型在临床决策中的判断可确定性 / ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making
1️⃣ 一句话总结
这篇论文提出了一个名为ClinDet-Bench的新评估基准,用于测试大语言模型在信息不全的临床场景中,能否准确判断当前信息是否足以做出可靠决策,结果发现现有模型容易过早下结论或过度弃权,揭示了其在医疗等高风险领域应用的安全性不足。