arXiv ID:
2509.09658
评估多模态大语言模型中的认知谦逊 / Measuring Epistemic Humility in Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为HumbleBench的新基准测试,专门用于评估多模态大语言模型在遇到图像与问题选项不匹配时,能否主动拒绝回答而非产生幻觉错误,从而更真实地衡量模型在安全关键场景下的可靠性。