arXiv ID:
2512.17495
arXiv 提交日期: 2025-12-19
GroundingME:通过多维评估揭示多模态大语言模型中的视觉指代差距 / GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
1️⃣ 一句话总结
这篇论文提出了一个名为GroundingME的新基准测试,通过四个关键维度系统性地评估多模态大语言模型,发现它们在复杂的真实世界视觉指代任务上存在巨大能力差距,并提出了两种改进策略。