arXiv ID:
2605.12413
arXiv 提交日期: 2026-05-12
超越定位:面向全景图像的多模态大模型视角条件空间推理综合诊断 / Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images
1️⃣ 一句话总结
本文构建了包含大量全景图像问答对的专业测试集PCSR-Bench,系统评估了多模态大模型在视角变化下的空间推理能力,发现模型在基础感知任务上表现尚可,但在复杂空间推理(如自我旋转、视角重定位)上成绩极低,进一步通过强化学习实验表明这种缺陷部分可改善但高度依赖任务和奖励设计,从而揭示了当前模型空间推理能力的关键瓶颈。