arXiv ID:
2606.30220
arXiv 提交日期: 2026-06-29
从准确性到视觉依赖:审计与过滤交通视频问答中的模态崩溃 / From Accuracy to Visual Dependence: Auditing and Filtering Modality Collapse in Traffic VideoQA
1️⃣ 一句话总结
该研究发现,在交通视频问答任务中,许多先进的视觉语言模型即使不看视频也能给出高分答案,说明它们依赖文本捷径而非真正理解画面;为此作者提出了盲区、视觉增益和快捷分数等指标,帮助筛选出真正需要视觉证据的问题,从而更准确地评估模型的视觉理解能力。