arXiv ID:
2605.21807
arXiv 提交日期: 2026-05-20
当病例罕见时:面向脱离指南的临床问答的检索基准 / When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering
1️⃣ 一句话总结
该论文提出了一个名为OGCaReBench的新型基准测试,专门评估大语言模型在面对罕见、不遵循常规指南的临床问题时,通过检索真实医学文献来提供准确答案的能力,实验表明即使最强模型直接回答也仅有56%正确率,而结合文档检索后准确率可提升至82%。