arXiv ID:
2603.01343
arXiv 提交日期: 2026-03-02
PanCanBench:一个用于评估大语言模型在胰腺肿瘤学中应用的综合基准 / PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology
1️⃣ 一句话总结
这篇论文提出了一个名为PanCanBench的新基准测试,它基于真实的胰腺癌患者问题来评估大语言模型在临床回答中的完整性、事实准确性和搜索整合能力,发现即使高分模型也普遍存在事实性错误,且网络搜索不一定能提升回答质量。