📄 论文总结
区分对待运动组件推动深度与自运动联合学习演进 / Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
1️⃣ 一句话总结
这项研究提出了一种新方法,通过分别处理相机运动中的不同分量并利用几何约束,显著提升了无监督深度估计和自运动学习的准确性和鲁棒性。
请先 登录 后再提交论文
区分对待运动组件推动深度与自运动联合学习演进 / Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
这项研究提出了一种新方法,通过分别处理相机运动中的不同分量并利用几何约束,显著提升了无监督深度估计和自运动学习的准确性和鲁棒性。
面向自监督单目深度估计的粗细粒度语言引导混合特征聚合方法 / Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
这项研究提出了一种结合CLIP和DINO基础模型的新方法,通过从粗到细的语言引导融合全局语义和局部空间特征,显著提升了自监督单目深度估计的精度,并能直接增强现有主流模型的性能。
ROOM:基于物理的连续体机器人模拟器,用于生成逼真医学数据集 / ROOM: A Physics-Based Continuum Robot Simulator for Photorealistic Medical Datasets Generation
这篇论文提出了一个名为ROOM的模拟器,它利用患者CT扫描生成高度逼真的支气管镜训练数据,解决了医学机器人开发中真实数据难以获取的难题,并通过实验验证了生成数据在姿态估计和深度估计等任务中的实用性。
SpatialVID:一个带有空间标注的大规模视频数据集 / SpatialVID: A Large-Scale Video Dataset with Spatial Annotations
这篇论文构建了一个名为SpatialVID的大规模视频数据集,包含超过7000小时的动态视频内容,并提供了详细的3D空间标注,旨在解决当前空间智能模型因训练数据不足而面临的泛化和真实感挑战。
从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator
这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务,并提出了一个名为FE2E的新框架,通过改进训练目标和数据格式,无需额外数据就能在深度和法线估计上取得显著性能提升。