arXiv ID:
2603.29616
arXiv 提交日期: 2026-03-31
Video-Oasis:重新思考视频理解的评估 / Video-Oasis: Rethinking Evaluation of Video Understanding
1️⃣ 一句话总结
这篇论文提出了一个名为Video-Oasis的诊断工具,通过系统分析发现现有视频理解评测基准存在严重缺陷——超过一半的测试样本无需观看视频就能答对,而顶尖模型在真正需要时空理解的样本上表现接近随机猜测,从而为未来构建更可靠的评测标准和模型设计提供了实用指导。