arXiv最新AI论文速览速学

🔍

标签: #spatial reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: TopoBench: Benchmarking LLMs on Hard Topological Reasoning 03-16

arXiv ID: 2603.12133

arXiv 提交日期: 2026-03-12

llm benchmark model evaluation topological reasoning spatial reasoning chain of thought error analysis puzzle solving

TopoBench：针对大语言模型在复杂拓扑推理任务上的基准测试 / TopoBench: Benchmarking LLMs on Hard Topological Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为TopoBench的基准测试，用于评估大语言模型在解决涉及连通性、环路闭合等复杂空间关系的拓扑谜题时的能力，研究发现当前最先进的模型在难题上表现不佳，其核心瓶颈主要在于从空间表示中提取约束条件，而非对这些约束进行推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08007

arXiv 提交日期: 2026-03-09

multi-modal agents natural language processing vision-language navigation spatial reasoning visual prompting aerial navigation benchmark evaluation

ViSA增强的空中视觉语言导航：一个视觉-空间推理增强的框架 / ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种新的视觉-空间推理增强框架，通过结构化视觉提示让视觉语言模型直接在图像上进行推理，无需额外训练，从而显著提升了无人机根据语言指令导航的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03002

arXiv 提交日期: 2026-03-03

llm model evaluation benchmark spatial reasoning cognitive benchmark mental models evaluation framework text-only evaluation

SpatialText：一个用于评估大语言模型空间理解能力的纯文本认知基准 / SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SpatialText的纯文本基准测试，通过分析大语言模型在空间推理任务中的系统性错误，发现它们主要依赖语言关联而非构建真正的内部空间心理模型，从而揭示了当前模型在空间认知上的根本局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09432

arXiv 提交日期: 2026-02-10

computer vision agents reinforcement learning 3d scene synthesis spatial reasoning multi-turn rl vision-grounded planning self-reflection

SceneReVis：一个基于视觉自反思的多轮强化学习框架用于3D室内场景合成 / SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL

1️⃣ 一句话总结

这篇论文提出了一个名为SceneReVis的新框架，它通过‘诊断-行动’的循环和多轮强化学习，让AI像人一样反复检查和修正3D场景中的物体摆放错误（如碰撞），从而生成更逼真、合理的室内场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04355

arXiv 提交日期: 2026-02-04

llm multi-modal model evaluation vision-language models working memory n-back task spatial reasoning multimodal evaluation

视觉能替代文本在工作记忆中发挥作用吗？来自视觉语言模型空间n-back任务的证据 / Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

1️⃣ 一句话总结

这篇论文通过一个空间记忆测试发现，视觉语言模型在处理文本信息时的工作记忆表现比处理视觉图像时更准确可靠，揭示了模型在多模态工作记忆中存在计算差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03060

arXiv 提交日期: 2026-02-03

multi-modal model evaluation natural language processing vision-language models token pruning spatial reasoning rotary position embeddings efficient inference

IVC-Prune：揭示LVLM中的隐式视觉坐标以实现视觉令牌剪枝 / IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning

1️⃣ 一句话总结

本文提出了一种名为IVC-Prune的新方法，通过发现并保留对空间推理至关重要的‘隐式视觉坐标’令牌，在无需额外训练的情况下，将大型视觉语言模型处理高分辨率图像时的视觉令牌数量减少约一半，同时保持甚至提升了模型在多种任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16207

arXiv 提交日期: 2026-01-22

robotics computer vision multi-modal vision-language-action spatial reasoning training-free intervention robot manipulation affinity guidance

IVRA：通过基于提示的无训练引导改进机器人动作策略中的视觉-标记关系 / IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为IVRA的轻量级、无需额外训练的方法，它通过巧妙利用视觉模型中已有的空间关联信息来增强机器人对视觉场景的几何理解，从而在多种机器人操作任务上稳定提升了动作策略的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13029

arXiv 提交日期: 2026-01-19

multi-modal agents computer vision spatial reasoning 3d reconstruction vision language models reinforcement learning benchmark

Think3D：利用空间进行空间推理的思考框架 / Think3D: Thinking with Space for Spatial Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为Think3D的框架，它能让现有的视觉大模型通过操控三维重建场景来‘思考’空间关系，无需额外训练即可显著提升它们在三维空间推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05172

arXiv 提交日期: 2026-01-08

agents computer vision natural language processing embodied question answering spatial reasoning vision-language models active perception 3d environments

CoV：用于空间推理的视角链提示 / CoV: Chain-of-View Prompting for Spatial Reasoning

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、名为‘视角链’的推理框架，它通过让视觉语言模型在3D场景中主动选择并调整观察视角来收集信息，从而显著提升了其在复杂空间问答任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20617

arXiv 提交日期: 2025-12-23

multi-modal model evaluation llm spatial reasoning benchmark cognitive hierarchy fine-tuning reinforcement learning

SpatialTree：空间能力在多模态大语言模型中的分支发展 / SpatialTree: How Spatial Abilities Branch Out in MLLMs

1️⃣ 一句话总结

这篇论文提出了一个受认知科学启发的四层次空间能力框架（SpatialTree），用于系统评估和提升多模态大语言模型的空间能力，并发现低层能力相互独立而高层能力紧密关联，同时提出了一种能抑制不必要思考的自动思考策略来全面提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.12133

1️⃣ 一句话总结

arXiv ID: 2603.08007

1️⃣ 一句话总结

arXiv ID: 2603.03002

1️⃣ 一句话总结

arXiv ID: 2602.09432

1️⃣ 一句话总结

arXiv ID: 2602.04355

1️⃣ 一句话总结

arXiv ID: 2602.03060

1️⃣ 一句话总结

arXiv ID: 2601.16207

1️⃣ 一句话总结

arXiv ID: 2601.13029

1️⃣ 一句话总结

arXiv ID: 2601.05172

1️⃣ 一句话总结

arXiv ID: 2512.20617

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.12133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08007 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09432 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04355 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03060 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13029 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05172 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20617 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.12133

arXiv ID: 2603.08007

arXiv ID: 2603.03002

arXiv ID: 2602.09432

arXiv ID: 2602.04355

arXiv ID: 2602.03060

arXiv ID: 2601.16207

arXiv ID: 2601.13029

arXiv ID: 2601.05172

arXiv ID: 2512.20617