📄 论文总结
OmniVideoBench:一个用于评估多模态大语言模型音视频推理能力的高质量基准 / OmniVideoBench: A High-Quality Benchmark for Evaluating Audio-Visual Reasoning Capabilities of Multimodal Large Language Models
1️⃣ 一句话总结
OmniVideoBench是一个包含628个真实世界视频和1000个高质量问答对的多模态基准,用于全面评估多模态大语言模型在音视频协同推理任务中的能力,揭示了当前模型在长视频理解、音乐理解和跨模态推理方面的局限性。
2️⃣ 论文创新点
1. 全面音视频基准构建
- 创新点:构建了包含长视频(可达30分钟)和高质量音视频问答对的评估基准
- 区别/改进:解决了现有基准关注短视频剪辑和单一模态的局限性
- 意义:为全面评估MLLMs的音视频推理能力提供了可靠工具
2. 逐步推理链标注
- 创新点:为每个问答对标注了包含模态和证据信息的逐步推理步骤
- 区别/改进:增强了评估可靠性并提供了分析模型推理过程的信号
- 意义:有助于理解模型的推理机制而不仅仅是最终答案
3. 多维度视频分类体系
- 创新点:将视频分为8个大类和68个子类,确保视频类型的广泛覆盖
- 区别/改进:相比传统单一分类,提供了更细粒度的视频分类
- 意义:便于视频检索并保证数据集的多样性
4. 多阶段质量过滤机制
- 创新点:采用多轮过滤确保问题真正需要多模态推理,消除数据集偏差
- 区别/改进:通过多轮过滤确保问题真正需要多模态推理,消除数据集偏差
- 意义:提高了数据集的纯净度和评估的可靠性
3️⃣ 主要结果与价值
结果亮点
- 当前MLLMs在基准上表现不佳(最佳模型准确率仅58.90%),接近随机猜测水平
- 开源模型在音频信息整合能力上较弱,加入ASR文本后性能提升有限
- 闭源模型(特别是Gemini-2.5-Pro)在大多数任务上表现最佳,显著优于开源模型
- 所有模型在处理音乐相关音频时性能下降,特别是在将抽象音乐情感和氛围信息转化为有效推理方面存在困难
实际价值
- 为多模态大语言模型的音视频推理能力评估提供了标准化测试平台
- 揭示了当前模型在跨模态互补性、长时序推理和音乐理解方面的技术瓶颈
- 为未来模型开发提供了明确的改进方向和评估标准
- 证明了密集时间采样对捕捉细粒度视觉动态和加强跨模态对齐的重要性
4️⃣ 术语表
- OmniVideoBench:用于评估多模态大语言模型音视频推理能力的高质量基准,包含628个真实世界视频和1000个高质量问答对
- MLLMs:多模态大语言模型,能够处理和整合视觉、语言和音频等多种模态信息的大型语言模型
- 视听推理:需要准确处理和整合音频和视觉模态进行推理的任务类型
- ASR:自动语音识别,用于将音频转换为文本
- 语义距离:选项间语义差异的量化指标,定义为两个选项语义单元集合的对称差集大小,用于确保选项间距离一致性
- Omni-modal MLLMs:能够处理和生成任意模态组合信息的多模态大语言模型
- 以人为中心的视频理解:以人为中心的视频理解,专注于分析和理解视频中与人类行为、互动等相关信息