arXiv ID:
2603.19076
DROID-SLAM在复杂真实环境中的应用 / DROID-SLAM in the Wild
1️⃣ 一句话总结
这篇论文提出了一种能够在动态、杂乱的真实环境中实时运行的视觉定位与建图系统,它通过分析多视角图像特征的不一致性来估计像素级不确定性,从而在物体移动或场景混乱时也能实现稳定跟踪和三维重建。
DROID-SLAM在复杂真实环境中的应用 / DROID-SLAM in the Wild
这篇论文提出了一种能够在动态、杂乱的真实环境中实时运行的视觉定位与建图系统,它通过分析多视角图像特征的不一致性来估计像素级不确定性,从而在物体移动或场景混乱时也能实现稳定跟踪和三维重建。
PanoVGGT:基于全景图像的端到端三维重建 / PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery
这篇论文提出了一个名为PanoVGGT的新型AI模型,它能够直接从一张或多张全景照片中,一步到位地重建出精确的三维场景模型,包括相机位置和深度信息,并专门解决了全景图像特有的几何变形难题。
WildDepth:用于3D野生动物感知与深度估计的多模态数据集 / WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation
这篇论文提出了一个名为WildDepth的新型多模态数据集,它结合了彩色图像和激光雷达数据,专门用于提升对动物进行三维感知、深度估计和行为检测的准确性,实验表明该数据集能显著提高相关任务的性能。
DualPrim:使用正负几何基元进行紧凑三维重建 / DualPrim: Compact 3D Reconstruction with Positive and Negative Primitives
这篇论文提出了一个名为DualPrim的新方法,它通过同时使用‘添加’和‘减去’两种几何基元来重建三维物体,从而生成结构清晰、易于编辑的紧凑模型,比只用‘添加’方式的方法效果更好。
M^3:稠密匹配与多视图基础模型结合的单目高斯溅射SLAM / M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
这项研究提出了一种名为M^3的新方法,它通过在多视图基础模型中增加一个专门的匹配模块来获取更精细的像素对应关系,并将其集成到一个鲁棒的单目SLAM系统中,从而在仅使用普通单目视频的情况下,显著提升了三维场景重建的精度和相机位姿估计的准确性。
MeMix:用于流式3D重建的少写多记方法 / MeMix: Writing Less, Remembering More for Streaming 3D Reconstruction
这篇论文提出了一种名为MeMix的即插即用模块,它通过将记忆状态分割成多个独立区块并选择性更新,有效解决了现有流式3D重建模型在长序列处理中因状态漂移和遗忘导致的性能退化问题,无需额外训练即可显著提升重建精度。
工业检测中堆叠物体的自动化计数 / Automated Counting of Stacked Objects in Industrial Inspection
这篇论文提出了一种新的三维视觉计数方法,通过结合多视角图像重建堆叠物体的几何形状并分析其占用率,从而能准确清点工业场景中大量被遮挡的相同零件。
HSImul3R:基于物理循环的仿真就绪人-场景交互重建 / HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions
这篇论文提出了一个名为HSImul3R的新方法,它通过将物理仿真器作为核心监督者,联合优化人体动作和场景几何,从而从少量图像或视频中重建出既真实又符合物理规律的虚拟人-场景交互模型,可直接用于机器人等应用。
Fast SAM 3D Body:加速SAM 3D Body以实现实时全身人体网格重建 / Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery
这篇论文提出了一种无需重新训练的加速框架,通过并行化特征提取和简化模型结构,将原本耗时的3D人体重建模型提速超过10倍,使其能够实时运行,并成功应用于仅需普通摄像头的机器人远程操控系统。
E2EGS:用于无姿态三维重建的事件到边缘高斯泼溅方法 / E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction
这项研究提出了一种仅使用事件相机数据就能重建三维场景的新方法,它通过智能地从事件流中提取边缘信息来估计相机运动并生成高质量的新视角图像,完全摆脱了对传统RGB图像和预设相机姿态的依赖。
请先 登录 后再提交论文