arXiv ID:
2606.22631
arXiv 提交日期: 2026-06-21
4DVLT:基于世界线的动态场景视觉语言跟踪 / 4DVLT: Dynamic Scene Understanding with Worldline-Centered Vision-Language Tracking
1️⃣ 一句话总结
本文提出了一种以“世界线”为核心的三维动态场景理解方法,通过将语言指令、物体身份、三维运动和二维多视角投影关联起来,并构建了大型基准数据集和高效的跟踪模型,在复杂动态场景中显著提升了目标定位和轨迹恢复的准确性。