← 返回列表

菜单

🤖 系统
📄 Abstract - OmniVideoBench: A High-Quality Benchmark for Evaluating Audio-Visual Reasoning Capabilities of Multimodal Large Language Models
正在获取摘要...
详细标签: video understanding audio-visual reasoning multimodal llms evaluation benchmark cross-modal integration 或 搜索:

📄 论文总结

OmniVideoBench:一个用于评估多模态大语言模型音视频推理能力的高质量基准 / OmniVideoBench: A High-Quality Benchmark for Evaluating Audio-Visual Reasoning Capabilities of Multimodal Large Language Models


1️⃣ 一句话总结

OmniVideoBench是一个包含628个真实世界视频和1000个高质量问答对的多模态基准,用于全面评估多模态大语言模型在音视频协同推理任务中的能力,揭示了当前模型在长视频理解、音乐理解和跨模态推理方面的局限性。


2️⃣ 论文创新点

1. 全面音视频基准构建

2. 逐步推理链标注

3. 多维度视频分类体系

4. 多阶段质量过滤机制


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF