arXiv ID:
2512.05277
arXiv 提交日期: 2025-12-04
从片段到场景:通过视觉语言模型实现自动驾驶中的时序理解 / From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model
1️⃣ 一句话总结
这篇论文针对自动驾驶视频中时序理解这一难题,提出了一个专门的评测基准TAD,并设计了两种无需额外训练的方法来提升现有视觉语言模型对动态场景的理解能力,显著提高了模型在该基准上的表现。