arXiv最新AI论文速览速学

🔍

标签: #3d scene understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 40 72小时内新更新论文 72h更新 96 最新: Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds 03-27

arXiv ID: 2603.25165

arXiv 提交日期: 2026-03-26

computer vision model training machine learning 3d scene understanding self-supervised learning point clouds instance segmentation geometric reasoning

迈向三维场景理解的基础模型：面向点云的实例感知自监督学习 / Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds

1️⃣ 一句话总结

这篇论文提出了一个名为PointINS的自监督学习框架，它通过几何感知学习让点云模型不仅能理解物体类别，还能自动识别和定位单个物体实例，从而为构建通用的三维人工智能基础模型迈出了关键一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25539

arXiv 提交日期: 2026-03-26

computer vision robotics systems articulation perception egocentric video 3d scene understanding hand-object interaction robot manipulation

PAWS：基于大规模第一人称视角视频的野外物体关节感知 / PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos

1️⃣ 一句话总结

这篇论文提出了一种名为PAWS的新方法，它能够直接从海量、未经标注的第一人称视角视频中，通过分析人手与物体的交互，自动学习并提取出抽屉、柜门等可活动物体的运动方式和结构，有效解决了以往方法依赖大量人工标注数据的瓶颈，并证明了其在机器人操作等下游任务中的实用价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24146

arXiv 提交日期: 2026-03-25

computer vision multi-modal systems 3d scene understanding open-vocabulary semantic segmentation gaussian splatting efficient inference

LightSplat：五秒内实现快速且内存高效的开放词汇3D场景理解 / LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds

1️⃣ 一句话总结

这篇论文提出了一种名为LightSplat的新方法，它通过向3D模型中注入简洁的语义索引并采用高效的单步聚类，实现了无需训练、速度快、内存占用极低的开放词汇3D场景分割，让用户能用自然语言快速识别复杂3D环境中的新物体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23447

arXiv 提交日期: 2026-03-24

multi-modal computer vision llm 3d scene understanding vision-language models urban intelligence spatial reasoning city-scale perception

3DCity-LLM：赋能多模态大语言模型进行三维城市级感知与理解 / 3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为3DCity-LLM的新框架，它通过一种从粗到细的特征编码方法和一个大规模高质量数据集，成功地将多模态大语言模型的能力扩展到了三维城市级场景的理解与规划任务上，显著超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19235

arXiv 提交日期: 2026-03-19

multi-modal computer vision model training 3d scene understanding video diffusion models spatial reasoning latent world simulator multimodal fusion

生成模型懂空间：释放隐式三维先验用于场景理解 / Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过挖掘大规模视频生成模型中隐含学习到的三维结构和物理规律知识，来增强多模态大语言模型的空间感知与推理能力，无需依赖稀缺的三维标注数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17993

arXiv 提交日期: 2026-03-18

robotics computer vision multi-modal trajectory synthesis 6-dof manipulation 3d scene understanding multimodal transformer object manipulation

GMT：面向三维场景中6自由度物体轨迹合成的目标条件多模态变换器 / GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

1️⃣ 一句话总结

这篇论文提出了一个名为GMT的多模态变换器模型，它能够根据目标位置和三维场景信息，为机器人合成出在复杂环境中既真实又精确的物体抓取和移动轨迹。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21552

arXiv 提交日期: 2026-02-25

computer vision systems model training 3d scene understanding occupancy prediction visual geometry priors gaussian primitives monocular depth

将视觉几何先验泛化至稀疏高斯占据预测 / Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

1️⃣ 一句话总结

这篇论文提出了一个名为GPOcc的新框架，它通过将先进的视觉几何模型提供的表面信息，巧妙地转化为三维空间内部的概率性体积表示，从而更高效、更准确地从单张图片或连续视频流中预测出整个场景的三维占据情况（即哪些地方有物体，哪些地方是空的）。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15734

arXiv 提交日期: 2026-02-17

computer vision multi-modal systems 3d scene understanding open-vocabulary voxel representation geometric distillation feature fields

基于语言与几何的稀疏体素表征用于整体场景理解 / Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding

1️⃣ 一句话总结

这项研究提出了一种新方法，通过结合语言和几何信息，在一个统一的框架内同时建模3D场景的外观、语义和几何结构，从而实现了比现有技术更优的整体场景理解和重建效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09575

arXiv 提交日期: 2026-01-14

computer vision multi-modal 3d scene understanding open-vocabulary voxel grouping vision-language models training-free referring expression segmentation

OpenVoxel：面向开放词汇3D场景理解的免训练体素分组与描述方法 / OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为OpenVoxel的免训练算法，它能够自动将3D场景中的稀疏体素聚合成有意义的物体组，并利用大语言模型为每个组生成文字描述，从而无需额外训练即可实现对复杂3D场景的开放词汇理解和分割。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.25165

1️⃣ 一句话总结

arXiv ID: 2603.25539

1️⃣ 一句话总结

arXiv ID: 2603.24146

1️⃣ 一句话总结

arXiv ID: 2603.23447

1️⃣ 一句话总结

arXiv ID: 2603.19235

1️⃣ 一句话总结

arXiv ID: 2603.17993

1️⃣ 一句话总结

arXiv ID: 2602.21552

1️⃣ 一句话总结

arXiv ID: 2602.15734

1️⃣ 一句话总结

arXiv ID: 2601.09575

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.25165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25539 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23447 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19235 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17993 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15734 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09575 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.25165

arXiv ID: 2603.25539

arXiv ID: 2603.24146

arXiv ID: 2603.23447

arXiv ID: 2603.19235

arXiv ID: 2603.17993

arXiv ID: 2602.21552

arXiv ID: 2602.15734

arXiv ID: 2601.09575