arXiv ID:
2604.04325
arXiv 提交日期: 2026-04-06
评估多轮医学诊断:过早回答、信息诱导与自我纠正 / Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction
1️⃣ 一句话总结
这篇论文通过构建一个多轮医学诊断测试集,发现大语言模型在逐步获取信息时存在过早下结论、容易被关键信息诱导以及具备自我纠正潜力等问题,并提出了推迟提问和关键信息后置等实用方法来显著提升诊断的准确性和可靠性。