arXiv ID:
2601.03471
arXiv 提交日期: 2026-01-06
EpiQAL:用于增强对齐与推理的流行病学问答大语言模型基准测试 / EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning
1️⃣ 一句话总结
这篇论文提出了首个专门评估大语言模型在流行病学推理方面能力的基准测试EpiQAL,发现现有模型在该领域表现有限,尤其是在需要结合证据进行多步推理的任务上存在明显挑战。