arXiv ID:
2606.26535
arXiv 提交日期: 2026-06-25
从幻觉到接地:通过CRSP诊断视觉空间智能 / From Hallucination to Grounding: Diagnosing Visual Spatial Intelligence via CRISP
1️⃣ 一句话总结
本文提出一种名为CRISP的结构化诊断方法,通过比较模型对空间关系的“隐含感知”与“显式推理”是否一致,来区分模型是真的理解空间还是仅靠语言猜测,结果发现即使是顶尖的商业模型在准确估算三维空间布局时也常出错,且无法有效利用自己内部的空间知识,而开源模型则因缺乏多步推理能力而受限。