arXiv ID:
2606.27187
arXiv 提交日期: 2026-06-25
HarmVideoBench:大型多模态模型中有害视频理解的基准测试 / HarmVideoBench: Benchmarking Harmful Video Understanding in Large Multimodal Models
1️⃣ 一句话总结
这篇论文提出了一个叫HarmVideoBench的新型基准测试,它包含1379个视频和4137道多选题,从三个层次(表层证据、片段内含义、跨片段推理)来全面检测AI模型对有害视频的理解能力,并设计了一种能按需检索上下文的方法,将模型准确率从61.7%提升到了84.4%。