arXiv ID:
2512.23044
Video-BrowseComp:在开放网络上对智能体视频研究进行基准测试 / Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
1️⃣ 一句话总结
这篇论文提出了首个名为Video-BrowseComp的基准测试,专门用于评估AI智能体在开放网络上主动搜索、观看并分析视频内容以回答复杂问题的能力,揭示了当前先进模型在此类需要视觉时序推理的任务上表现仍然很差。