arXiv最新AI论文速览速学

🔍

标签: #audio-visual understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking 01-28

arXiv ID: 2601.17645

arXiv 提交日期: 2026-01-25

multi-modal llm benchmark multimodal evaluation cultural reasoning audio-visual understanding meme comprehension contextual knowledge

AVMeme测试：一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

1️⃣ 一句话总结

这篇论文提出了一个名为AVMeme Exam的基准测试，通过评估AI模型对网络流行音视频（如音乐、音效）在文化背景下的理解能力，发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23646

arXiv 提交日期: 2025-12-29

multi-modal agents model evaluation audio-visual understanding active perception tool orchestration benchmark multimodal alignment

OmniAgent：用于全模态音视频理解的音频引导主动感知智能体 / OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为OmniAgent的智能体，它能够主动利用音频线索来动态调用工具，从而更精细地理解和分析音视频内容，在多个基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10689

arXiv 提交日期: 2025-10-12

multi-modal benchmark model evaluation audio-visual understanding multimodal reasoning evaluation benchmark video comprehension modality complementarity

OmniVideoBench：面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1️⃣ 一句话总结

这篇论文提出了一个名为OmniVideoBench的大规模评估基准，专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力，发现现有模型与人类水平仍有较大差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.17645

1️⃣ 一句话总结

arXiv ID: 2512.23646

1️⃣ 一句话总结

arXiv ID: 2510.10689

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.17645 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23646 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10689 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.17645

arXiv ID: 2512.23646

arXiv ID: 2510.10689