arXiv ID:
2602.20159
arXiv 提交日期: 2026-02-23
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
1️⃣ 一句话总结
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。