arXiv ID:
2604.12159
arXiv 提交日期: 2026-04-14
VidTAG:基于去噪序列预测的全球尺度时间对齐视频到GPS地理定位 / VidTAG: Temporally Aligned Video to GPS Geolocalization with Denoising Sequence Prediction at a Global Scale
1️⃣ 一句话总结
这篇论文提出了一个名为VidTAG的新方法,它通过结合自监督和语言对齐特征,并引入专门模块来处理视频帧的时间对齐问题,从而能够更精确、更一致地从视频中推断出拍摄地点的GPS坐标和运动轨迹,在全球范围内实现了比现有方法更优的细粒度视频地理定位。