arXiv ID:
2606.26348
arXiv 提交日期: 2026-06-24
多模态大语言模型评估中我们忽略了什么? / What We are Missing in Multimodal LLM Evaluation?
1️⃣ 一句话总结
这篇论文指出当前多模态大语言模型的评估方法滞后于模型能力的发展,现有基准测试大多局限于孤立任务,无法有效衡量模型跨模态信息整合的水平,并总结了四个关键缺失的评估维度:时空连贯性、物理世界理解、多模态一致性和选择性注意力。