arXiv最新AI论文速览速学

🔍

标签: #spatial reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 96 72小时内新更新论文 72h更新 96 最新: Graph-Enhanced Large Language Models for Spatial Search 06-23

arXiv ID: 2604.26934

arXiv 提交日期: 2026-04-29

multi-modal model training computer vision world model spatial reasoning vision-language model distillation egocentric motion

World2VLM：将世界模型的空间想象能力蒸馏到视觉语言模型中，用于动态空间推理 / World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning

1️⃣ 一句话总结

本文提出一种新训练框架World2VLM，通过让生成式世界模型在训练时“教”视觉语言模型如何预测视角变化后的场景，使后者在不增加运算负担的情况下，提升了动态空间推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12630

arXiv 提交日期: 2026-04-14

multi-modal model training computer vision spatial reasoning geometric features multimodal llm feature aggregation 3d vision

GeoAlign：用于多模态大语言模型空间推理的几何特征重对齐 / GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GeoAlign的新框架，通过动态聚合3D模型的多层几何特征并与视觉内容对齐，有效解决了现有多模态大模型在空间推理任务上的不足，使小型模型也能达到顶尖性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13035

arXiv 提交日期: 2026-04-14

llm multi-modal model evaluation 3d scene synthesis symbolic evaluation spatial reasoning layout refinement ontology

SceneCritic：一种用于3D室内场景合成的符号化评估器 / SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为SceneCritic的符号化评估工具，它基于一个结构化的空间知识库来客观、稳定地评估3D室内场景布局的合理性，解决了现有基于大语言模型或视觉语言模型的评估方法因视角、提示词或幻觉导致的不稳定问题，并通过实验证明了其在评估和指导场景迭代优化方面的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08475

arXiv 提交日期: 2026-04-09

robotics multi-modal computer vision 3d manipulation image editing priors zero-shot generalization spatial reasoning open-world robotics

LAMP：将图像编辑提升为开放世界机器人操作的通用三维先验 / LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation

1️⃣ 一句话总结

这篇论文提出了一种名为LAMP的新方法，它巧妙地将图像编辑中隐含的二维空间信息转化为精细的三维几何变换，从而为零样本的开放世界机器人操作任务提供了强大且通用的指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08033

arXiv 提交日期: 2026-04-09

llm agents systems sensor scheduling neuro-symbolic spatial reasoning iot graph optimization

物联网大脑：面向语义-空间传感器调度的LLM落地框架 / IoT-Brain: Grounding LLMs for Semantic-Spatial Sensor Scheduling

1️⃣ 一句话总结

这篇论文提出了一个名为IoT-Brain的系统，它通过一种创新的‘空间轨迹图’方法，将大语言模型理解的高层语义任务，可靠且高效地转化为物理世界中具体传感器的调度方案，从而弥合了智能意图与物理感知之间的鸿沟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08476

arXiv 提交日期: 2026-04-09

multi-modal model training model evaluation visual reasoning reinforcement learning chain-of-thought policy optimization spatial reasoning

忠实GRPO：通过约束策略优化提升多模态语言模型的视觉空间推理能力 / Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

1️⃣ 一句话总结

这篇论文发现现有的多模态推理模型在提升答案准确率时，其推理过程常常与答案不一致或脱离图像证据，因此提出了一种名为“忠实GRPO”的新训练方法，通过强制模型在推理过程中保持逻辑一致性和视觉证据的准确描述，从而显著提升了推理质量和最终答案的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00799

arXiv 提交日期: 2026-04-01

multi-modal model evaluation computer vision spatial reasoning 3d consistency multimodal llms evaluation benchmark visual understanding

多模态大语言模型无法识别空间不一致性 / Multimodal Language Models Cannot Spot Spatial Inconsistencies

1️⃣ 一句话总结

这篇论文通过一项新任务发现，当前先进的多模态大语言模型在识别同一场景不同视角下物体运动的空间不一致性时，表现远不如人类，揭示了模型对三维几何结构的理解仍然脆弱且不完整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29281

arXiv 提交日期: 2026-03-31

multi-modal agents benchmark embodied vision-language models video dataset retail environments supervised fine-tuning spatial reasoning

PRISM：一个面向具身视觉语言模型的多视角多能力零售视频数据集 / PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为PRISM的大型零售场景视频数据集，旨在通过结构化知识训练，显著提升AI模型在真实物理环境中理解空间、动态和行动的能力，使其更可靠地执行任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25686

arXiv 提交日期: 2026-03-26

computer vision multi-modal systems geo-localization cross-view matching autoregressive zooming spatial reasoning satellite imagery

只需放大：通过自回归缩放实现跨视角地理定位 / Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

1️⃣ 一句话总结

这篇论文提出了一种名为‘只需放大’的新方法，通过让模型像人看地图一样，从城市全景图开始一步步放大到目标位置，来精准匹配街景照片和卫星图像，从而在无需GPS的情况下实现更准确的地理定位。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23447

arXiv 提交日期: 2026-03-24

multi-modal computer vision llm 3d scene understanding vision-language models urban intelligence spatial reasoning city-scale perception

3DCity-LLM：赋能多模态大语言模型进行三维城市级感知与理解 / 3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为3DCity-LLM的新框架，它通过一种从粗到细的特征编码方法和一个大规模高质量数据集，成功地将多模态大语言模型的能力扩展到了三维城市级场景的理解与规划任务上，显著超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.26934

1️⃣ 一句话总结

arXiv ID: 2604.12630

1️⃣ 一句话总结

arXiv ID: 2604.13035

1️⃣ 一句话总结

arXiv ID: 2604.08475

1️⃣ 一句话总结

arXiv ID: 2604.08033

1️⃣ 一句话总结

arXiv ID: 2604.08476

1️⃣ 一句话总结

arXiv ID: 2604.00799

1️⃣ 一句话总结

arXiv ID: 2603.29281

1️⃣ 一句话总结

arXiv ID: 2603.25686

1️⃣ 一句话总结

arXiv ID: 2603.23447

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.26934 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12630 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13035 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08033 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00799 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25686 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23447 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.26934

arXiv ID: 2604.12630

arXiv ID: 2604.13035

arXiv ID: 2604.08475

arXiv ID: 2604.08033

arXiv ID: 2604.08476

arXiv ID: 2604.00799

arXiv ID: 2603.29281

arXiv ID: 2603.25686

arXiv ID: 2603.23447