arXiv ID:
2512.14870
arXiv 提交日期: 2025-12-16
HERBench:视频问答中多证据整合的基准测试 / HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
1️⃣ 一句话总结
这篇论文提出了一个名为HERBench的新基准测试,专门用于评估AI模型在视频问答中整合多个分散证据的能力,发现当前最先进的模型在这方面存在严重不足,主要卡在‘找不到关键画面’和‘找到了也整合不了’两个瓶颈上。