arXiv最新AI论文速览速学

🔍

标签: #multimodal evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models 03-20

arXiv ID: 2603.18678

arXiv 提交日期: 2026-03-19

natural language processing audio benchmark audio pun understanding large audio-language models humour detection multimodal evaluation spoken language processing

词语的趣味：大型音频-语言模型在音频双关语理解上的基准测试 / Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models

1️⃣ 一句话总结

这篇论文提出了首个专门用于评估大型音频-语言模型理解音频双关语能力的基准测试APUN-Bench，通过系统测试发现现有模型在识别、定位和解释音频双关语方面存在显著不足，为提升AI对幽默语音的理解提供了关键洞见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15020

arXiv 提交日期: 2026-03-16

multi-modal natural language processing benchmark meme generation emotion control multimodal evaluation affective computing image-text editing

MER-Bench：一个用于多模态表情包再评价的综合基准 / MER-Bench: A Comprehensive Benchmark for Multimodal Meme Reappraisal

1️⃣ 一句话总结

这篇论文提出了一个名为‘表情包再评价’的新任务，旨在将负面情绪的表情包自动转化为积极正面的版本，并为此创建了一个包含详细标注的基准数据集和一套基于多模态大模型的评估体系，以推动可控的表情包编辑和情感感知的多模态内容生成研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11915

arXiv 提交日期: 2026-03-12

llm natural language processing benchmark theory of mind multimodal evaluation social reasoning cognitive capabilities conversational agents

CoMMET：大型语言模型能在多大程度上执行心智理论任务？ / CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?

1️⃣ 一句话总结

这篇论文提出了一个名为CoMMET的新型多模态评估数据集，用于全面测试大型语言模型理解和推断他人心理状态的能力，发现现有模型在此类社交推理任务上仍有局限，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21854

arXiv 提交日期: 2026-02-25

multi-modal llm benchmark few-shot learning in-context learning chain-of-thought multimodal evaluation model analysis

FewMMBench：一个用于多模态小样本学习的基准测试 / FewMMBench: A Benchmark for Multimodal Few-Shot Learning

1️⃣ 一句话总结

这篇论文提出了一个名为FewMMBench的综合性基准测试，专门用于评估多模态大语言模型在只提供少量示例（小样本）情况下的学习能力，并通过测试发现，当前模型在增加示例或使用复杂推理提示后性能提升有限，甚至可能下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11340

arXiv 提交日期: 2026-02-11

llm model evaluation multi-modal prompt optimization multimodal evaluation ai-generated images automated judging bi-level optimization

面向多模态大语言模型作为评估者的双层提示优化 / Bi-Level Prompt Optimization for Multimodal LLM-as-a-Judge

1️⃣ 一句话总结

本文提出了一种名为BLPO的双层提示优化框架，通过将图像转换为保留关键视觉信息的文本表示，有效解决了多模态大模型在评估生成图像时因上下文限制而难以优化提示的难题，从而显著提升了AI评估结果与人类判断的一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10814

arXiv 提交日期: 2026-02-11

agents benchmark multi-modal gui agents block-based programming multimodal evaluation visuomotor control program construction

看、规划、点击：在Scratch中评估多模态图形界面智能体 / See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

1️⃣ 一句话总结

这篇论文提出了一个名为ScratchWorld的新评估基准，用于全面测试AI智能体在Scratch图形化编程环境中通过操作界面来构建、调试和扩展程序的能力，并发现当前智能体在高级规划与精细界面操作之间存在明显差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05986

arXiv 提交日期: 2026-02-05

video generation benchmark model evaluation reasoning benchmark text-to-video multimodal evaluation world rules temporal consistency

RISE-Video：视频生成器能解码隐含的世界规则吗？ / RISE-Video: Can Video Generators Decode Implicit World Rules?

1️⃣ 一句话总结

这篇论文提出了一个名为RISE-Video的评测基准，旨在评估视频生成模型是否真正理解并遵循物理世界和常识中的隐含规则，而不仅仅是生成好看的画面，结果发现现有模型在这方面普遍存在不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04355

arXiv 提交日期: 2026-02-04

llm multi-modal model evaluation vision-language models working memory n-back task spatial reasoning multimodal evaluation

视觉能替代文本在工作记忆中发挥作用吗？来自视觉语言模型空间n-back任务的证据 / Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

1️⃣ 一句话总结

这篇论文通过一个空间记忆测试发现，视觉语言模型在处理文本信息时的工作记忆表现比处理视觉图像时更准确可靠，揭示了模型在多模态工作记忆中存在计算差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17645

arXiv 提交日期: 2026-01-25

multi-modal llm benchmark multimodal evaluation cultural reasoning audio-visual understanding meme comprehension contextual knowledge

AVMeme测试：一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

1️⃣ 一句话总结

这篇论文提出了一个名为AVMeme Exam的基准测试，通过评估AI模型对网络流行音视频（如音乐、音效）在文化背景下的理解能力，发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10108

arXiv 提交日期: 2026-01-15

multi-modal model evaluation benchmark evidence grounding long-context reasoning scientific documents multimodal evaluation chain-of-evidence

SIN-Bench：在长上下文多模态科学交叉文献中追踪原生证据链 / SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

1️⃣ 一句话总结

这篇论文提出了一个名为‘海洋寻鱼’的新评估范式，并构建了SIN-Bench基准测试，旨在检验多模态大模型是否能在长篇科学论文中构建并追踪图文结合的原生证据链，而不仅仅是给出正确答案，实验发现模型在证据锚定方面存在明显瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.18678

1️⃣ 一句话总结

arXiv ID: 2603.15020

1️⃣ 一句话总结

arXiv ID: 2603.11915

1️⃣ 一句话总结

arXiv ID: 2602.21854

1️⃣ 一句话总结

arXiv ID: 2602.11340

1️⃣ 一句话总结

arXiv ID: 2602.10814

1️⃣ 一句话总结

arXiv ID: 2602.05986

1️⃣ 一句话总结

arXiv ID: 2602.04355

1️⃣ 一句话总结

arXiv ID: 2601.17645

1️⃣ 一句话总结

arXiv ID: 2601.10108

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.18678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11915 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21854 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11340 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05986 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04355 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17645 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10108 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.18678

arXiv ID: 2603.15020

arXiv ID: 2603.11915

arXiv ID: 2602.21854

arXiv ID: 2602.11340

arXiv ID: 2602.10814

arXiv ID: 2602.05986

arXiv ID: 2602.04355

arXiv ID: 2601.17645

arXiv ID: 2601.10108