🤖 系统
11-30 17:31
📄 论文总结
评估多模态大语言模型中的认知谦逊 / Measuring Epistemic Humility in Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为HumbleBench的新基准测试,专门用于评估多模态大语言模型在遇到图像与问题选项不匹配时,能否主动拒绝回答而非产生幻觉错误,从而更真实地衡量模型在安全关键场景下的可靠性。
请先 登录 后再提交论文
评估多模态大语言模型中的认知谦逊 / Measuring Epistemic Humility in Multimodal Large Language Models
这篇论文提出了一个名为HumbleBench的新基准测试,专门用于评估多模态大语言模型在遇到图像与问题选项不匹配时,能否主动拒绝回答而非产生幻觉错误,从而更真实地衡量模型在安全关键场景下的可靠性。
AHELM:音频-语言模型的全方位评估 / AHELM: A Holistic Evaluation of Audio-Language Models
这篇论文提出了一个名为AHELM的综合评估基准,通过标准化测试方法全面衡量音频-语言模型在感知、推理、公平性等10个关键维度的表现,发现现有模型在部分能力上表现优异但仍存在公平性等问题。