arXiv最新AI论文速览速学

🔍

标签: #cognitive map ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models 06-02

arXiv ID: 2606.02459

arXiv 提交日期: 2026-06-01

multi-modal agents reinforcement learning spatial reasoning cognitive map spatial assertion codes reward signals

像鸽子一样主动探索：通过智能视觉语言模型强化空间推理 / Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models

1️⃣ 一句话总结

本文借鉴鸽子构建并利用认知地图导航的机制，提出一种让视觉语言模型（VLM）主动探索环境的智能框架，通过动态认知地图记录场景布局，并结合空间断言代码（SAC）作为稠密奖励信号来训练模型，从而显著提升其在空间推理任务上的表现，在MindCube基准上达到80.5%的准确率，尤其将最具挑战的旋转子集准确率相对提升了53.2%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13037

arXiv 提交日期: 2026-05-13

agents llm reinforcement learning interactive agents cognitive map long-horizon planning exploration reasoning

MAP：一种用于长期交互式智能体推理的“先构建地图，再行动”范式 / MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为MAP的新型智能体框架，让AI在执行复杂任务前先主动探索环境、构建一张结构化的“认知地图”，从而避免了传统方法靠反复试错才能理解环境的低效循环，实验证明该范式在多种游戏和基准测试中显著提升了性能，甚至比直接模仿专家行为更有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05277

arXiv 提交日期: 2025-12-04

multi-modal benchmark computer vision autonomous driving temporal reasoning vision-language model evaluation cognitive map

从片段到场景：通过视觉语言模型实现自动驾驶中的时序理解 / From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

1️⃣ 一句话总结

这篇论文针对自动驾驶视频中时序理解这一难题，提出了一个专门的评测基准TAD，并设计了两种无需额外训练的方法来提升现有视觉语言模型对动态场景的理解能力，显著提高了模型在该基准上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.02459

1️⃣ 一句话总结

arXiv ID: 2605.13037

1️⃣ 一句话总结

arXiv ID: 2512.05277

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.02459 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13037 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05277 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.02459

arXiv ID: 2605.13037

arXiv ID: 2512.05277