arXiv ID:
2606.02459
像鸽子一样主动探索:通过智能视觉语言模型强化空间推理 / Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models
1️⃣ 一句话总结
本文借鉴鸽子构建并利用认知地图导航的机制,提出一种让视觉语言模型(VLM)主动探索环境的智能框架,通过动态认知地图记录场景布局,并结合空间断言代码(SAC)作为稠密奖励信号来训练模型,从而显著提升其在空间推理任务上的表现,在MindCube基准上达到80.5%的准确率,尤其将最具挑战的旋转子集准确率相对提升了53.2%。