🤖 系统
11-30 17:31
📄 论文总结
评估多模态大语言模型中的认知谦逊 / Measuring Epistemic Humility in Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为HumbleBench的新基准测试,专门用于评估多模态大语言模型在遇到图像与问题选项不匹配时,能否主动拒绝回答而非产生幻觉错误,从而更真实地衡量模型在安全关键场景下的可靠性。
请先 登录 后再提交论文
评估多模态大语言模型中的认知谦逊 / Measuring Epistemic Humility in Multimodal Large Language Models
这篇论文提出了一个名为HumbleBench的新基准测试,专门用于评估多模态大语言模型在遇到图像与问题选项不匹配时,能否主动拒绝回答而非产生幻觉错误,从而更真实地衡量模型在安全关键场景下的可靠性。