arXiv ID:
2604.00799
多模态大语言模型无法识别空间不一致性 / Multimodal Language Models Cannot Spot Spatial Inconsistencies
1️⃣ 一句话总结
这篇论文通过一项新任务发现,当前先进的多模态大语言模型在识别同一场景不同视角下物体运动的空间不一致性时,表现远不如人类,揭示了模型对三维几何结构的理解仍然脆弱且不完整。