arXiv最新AI论文速览速学

🔍

标签: #depth estimation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Scene-Centric Unsupervised Video Panoptic Segmentation 06-04

arXiv ID: 2606.04925

arXiv 提交日期: 2026-06-03

computer vision machine learning video video panoptic segmentation unsupervised learning pseudo-labeling depth estimation motion cues

以场景为中心的无监督视频全景分割 / Scene-Centric Unsupervised Video Panoptic Segmentation

1️⃣ 一句话总结

本文提出了首个无需人工标注的无监督视频全景分割方法VideoCUPS，通过利用视频中的深度、运动和视觉线索自动生成伪标签，并设计新型损失函数训练模型，在多个基准上显著超越了现有方法，为无监督视频理解开辟了新方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.07429

arXiv 提交日期: 2026-05-08

computer vision aigc bokeh rendering diffusion model super-resolution depth estimation image enhancement

基于扩散框架的逼真且高效景深虚化渲染 / Towards Photorealistic and Efficient Bokeh Rendering via Diffusion Framework

1️⃣ 一句话总结

本文提出一种名为MagicBokeh的统一扩散模型框架，能同时完成图像超分辨率和景深虚化效果生成，解决了手机小光圈在低分辨率、高倍变焦照片上难以产生自然虚化效果的问题，且比传统两步法更高效、更逼真。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26341

arXiv 提交日期: 2026-04-29

computer vision multi-modal image generation 3d geometric awareness spatial understanding depth estimation mixture-of-transformers unified generation

SpatialFusion：赋予统一图像生成模型内在的3D几何感知能力 / SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness

1️⃣ 一句话总结

本文提出SpatialFusion框架，通过在统一图像生成模型中引入并行空间变换器来学习深度信息，并将这些几何约束注入扩散模型，使得生成的图像在空间一致性上显著超越GPT-4o等现有模型，同时不增加额外推理开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26232

arXiv 提交日期: 2026-04-29

medical video generation interpretability colonoscopy depth estimation diffusion model controllable generation clinical evaluation

DepthPilot：从可控性到可解释性的结肠镜检查视频生成 / DepthPilot: From Controllability to Interpretability in Colonoscopy Video Generation

1️⃣ 一句话总结

本文提出了一种名为DepthPilot的可解释框架，通过将深度信息约束与自适应样条去噪模块相结合，使得生成的结肠镜视频不仅视觉逼真，还能符合真实的解剖结构，从而在临床评估中超越现有方法，并为手术导航和三维重建提供了可靠基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19702

arXiv 提交日期: 2026-04-21

computer vision multi-modal 4d face reconstruction dynamic tracking canonical coordinates depth estimation transformer

任意面孔：从任意图像序列实现4D人脸重建 / Face Anything: 4D Face Reconstruction from Any Image Sequence

1️⃣ 一句话总结

本文提出了一种统一的人脸4D重建方法，通过预测每个像素在标准人脸空间中的坐标，能够从任意图像序列中同时恢复高精度的三维形状、表情变化和密集跟踪，相比现有方法将对应误差降低约3倍、深度精度提升16%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04667

arXiv 提交日期: 2026-04-06

computer vision multi-modal systems depth estimation bundle adjustment uav imagery real-time mapping zero-shot learning

ZeD-MAP：基于光束法平差引导的零样本深度图实时航空成像方法 / ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging

1️⃣ 一句话总结

这项研究提出了一种名为ZeD-MAP的新方法，它巧妙地将无需特定数据训练的快速深度预测模型与光束法平差技术相结合，成功解决了无人机实时三维建图中精度与速度难以兼顾的难题，实现了在保持亚米级精度的同时进行快速处理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01603

arXiv 提交日期: 2026-04-02

computer vision model training shape from focus depth estimation focal stack image augmentation convolutional gated recurrent units

迈向聚焦形状恢复中的最小焦栈 / Towards Minimal Focal Stack in Shape from Focus

1️⃣ 一句话总结

这篇论文提出了一种创新的焦栈增强方法，使得聚焦形状恢复技术仅需两张不同焦距的图像就能精确重建三维深度，大大降低了传统方法对大量输入图像的需求，同时保持了顶尖的精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21931

arXiv 提交日期: 2026-03-23

computer vision model training systems neural radiance fields satellite imagery 3d reconstruction geometric regularization depth estimation

SatGeo-NeRF：用于卫星影像的几何正则化神经辐射场 / SatGeo-NeRF: Geometrically Regularized NeRF for Satellite Imagery

1️⃣ 一句话总结

这篇论文提出了一种名为SatGeo-NeRF的新方法，通过引入三种几何正则化技术来减少模型过拟合，从而显著提升了从卫星图像重建三维场景的几何精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17571

arXiv 提交日期: 2026-03-18

computer vision multi-modal model training 3d reconstruction panoramic imagery transformer pose estimation depth estimation

PanoVGGT：基于全景图像的端到端三维重建 / PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery

1️⃣ 一句话总结

这篇论文提出了一个名为PanoVGGT的新型AI模型，它能够直接从一张或多张全景照片中，一步到位地重建出精确的三维场景模型，包括相机位置和深度信息，并专门解决了全景图像特有的几何变形难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16816

arXiv 提交日期: 2026-03-17

computer vision multi-modal data depth estimation 3d reconstruction dataset lidar wildlife perception

WildDepth：用于3D野生动物感知与深度估计的多模态数据集 / WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation

1️⃣ 一句话总结

这篇论文提出了一个名为WildDepth的新型多模态数据集，它结合了彩色图像和激光雷达数据，专门用于提升对动物进行三维感知、深度估计和行为检测的准确性，实验表明该数据集能显著提高相关任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04925

1️⃣ 一句话总结

arXiv ID: 2605.07429

1️⃣ 一句话总结

arXiv ID: 2604.26341

1️⃣ 一句话总结

arXiv ID: 2604.26232

1️⃣ 一句话总结

arXiv ID: 2604.19702

1️⃣ 一句话总结

arXiv ID: 2604.04667

1️⃣ 一句话总结

arXiv ID: 2604.01603

1️⃣ 一句话总结

arXiv ID: 2603.21931

1️⃣ 一句话总结

arXiv ID: 2603.17571

1️⃣ 一句话总结

arXiv ID: 2603.16816

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04925 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.07429 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26341 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26232 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04667 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01603 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17571 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16816 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04925

arXiv ID: 2605.07429

arXiv ID: 2604.26341

arXiv ID: 2604.26232

arXiv ID: 2604.19702

arXiv ID: 2604.04667

arXiv ID: 2604.01603

arXiv ID: 2603.21931

arXiv ID: 2603.17571

arXiv ID: 2603.16816