arXiv ID:
2602.21137
arXiv 提交日期: 2026-02-24
UDVideoQA:一个用于城市动态多目标时空推理的交通视频问答数据集 / UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics
1️⃣ 一句话总结
这篇论文提出了一个名为UDVideoQA的新数据集,它基于真实城市交通视频,通过大量问答对来系统评估AI模型在视觉理解和因果推理方面的能力,并发现当前先进模型在基础感知和复杂推理之间存在明显差距,而使用该数据集微调较小的模型可以有效弥补这一不足。