arXiv ID:
2601.17645
AVMeme测试:一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
1️⃣ 一句话总结
这篇论文提出了一个名为AVMeme Exam的基准测试,通过评估AI模型对网络流行音视频(如音乐、音效)在文化背景下的理解能力,发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。