arXiv最新AI论文速览速学

🔍

标签: #4d scene understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking 02-27

arXiv ID: 2602.23172

arXiv 提交日期: 2026-02-26

computer vision robotics systems 4d scene understanding panoptic occupancy tracking gaussian splatting dynamic environments multi-view fusion

用于4D全景占用跟踪的潜在高斯泼溅方法 / Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

1️⃣ 一句话总结

这项研究提出了一种名为LaGS的新方法，它通过结合相机跟踪和全景占用预测，并利用创新的‘潜在高斯泼溅’技术高效整合多视角信息，实现了对动态环境中物体（如车辆、行人）的精确4D（三维空间加时间）追踪和语义分割，性能在主流数据集上达到领先水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17504

arXiv 提交日期: 2025-12-19

computer vision video generation multi-modal video object insertion 4d scene understanding diffusion models geometric consistency illumination synthesis

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频对象插入 / InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

1️⃣ 一句话总结

这项研究提出了一个名为InsertAnywhere的新框架，它通过结合4D场景几何理解和扩散模型，解决了在视频中逼真插入物体时遇到的位置、遮挡和光影一致性问题，从而实现了比现有方法更自然、更协调的视频编辑效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05060

arXiv 提交日期: 2025-12-04

computer vision multi-modal model training 4d scene understanding language grounding transformer dynamic scenes open-vocabulary

4DLangVGGT：基于Transformer的4D语言-视觉几何统一模型 / 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

1️⃣ 一句话总结

这篇论文提出了一种名为4DLangVGGT的新型人工智能模型，它能够一次性理解动态三维场景的几何变化并用自然语言描述其中的物体，无需对每个新场景进行耗时优化，从而为机器人、增强现实等应用提供了更高效、通用的场景理解工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.23172

1️⃣ 一句话总结

arXiv ID: 2512.17504

1️⃣ 一句话总结

arXiv ID: 2512.05060

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.23172 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17504 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05060 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.23172

arXiv ID: 2512.17504

arXiv ID: 2512.05060