arXiv ID:
2606.05702
arXiv 提交日期: 2026-06-04
看见时间:视觉语言模型中的时间顺序推理与捷径偏误基准测试 / Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models
1️⃣ 一句话总结
该论文构建了一套专门用于评估视觉语言模型时间顺序推理能力的新基准,通过多组不同难度的图像数据集和跨模态匹配任务,发现模型常常依赖颜色等表面线索而非真正的时间逻辑来作出判断,揭示了当前模型在理解图像先后顺序上存在的严重局限。