arXiv最新AI论文速览速学

🔍

标签: #multimodal evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks? 03-13

arXiv ID: 2512.16899

arXiv 提交日期: 2025-12-18

multi-modal benchmark model evaluation reward models multimodal evaluation preference learning interleaved generation llm-as-a-judge

多模态奖励模型基准2：评估交错文本与图像的全能奖励模型 / Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

1️⃣ 一句话总结

这篇论文提出了首个用于评估能同时处理图文交错序列的‘全能奖励模型’的综合基准测试MMRB2，通过四个核心任务测试了当前主流模型的性能，发现最先进的模型如Gemini 3 Pro在判断质量上仍显著落后于人类专家，并揭示了未来奖励模型需要改进的关键方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13168

arXiv 提交日期: 2025-12-15

agents benchmark financial finance benchmark spreadsheet agents enterprise workflows multimodal evaluation accounting ai

Finch：以电子表格为核心的企业工作流中的财务与会计基准测试 / Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows

1️⃣ 一句话总结

这篇论文提出了一个名为Finch的基准测试，它基于真实企业（如安然公司）的财务工作流程构建，用于评估AI助手处理复杂、多步骤的财务任务（如数据录入、计算、建模和报告）的能力，结果显示即使是当前最先进的AI模型在这些真实场景中的表现也远未达到理想水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03405

arXiv 提交日期: 2025-12-03

multi-modal video benchmark video difference captioning multimodal evaluation comparative reasoning video understanding dataset

ViDiC：视频差异描述 / ViDiC: Video Difference Captioning

1️⃣ 一句话总结

这篇论文提出了一个名为ViDiC的新任务和对应数据集，旨在让多模态大语言模型能够精细地描述视频之间的异同，并发现现有模型在这方面的能力仍有显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02231

arXiv 提交日期: 2025-12-01

multi-modal llm benchmark audiovisual reasoning speech understanding multimodal evaluation video question answering speaker identification

看、听、懂：评测多模态大语言模型中对人类语音的视听理解能力 / See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为AV-SpeakerBench的新评测基准，专门用于严格评估多模态大模型在真实视频中，能否将说话人、说话内容和说话时间精准关联起来进行细粒度推理，并发现现有模型在此任务上仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21662

arXiv 提交日期: 2025-11-26

model evaluation multi-modal benchmark multimodal evaluation criteria following judge models benchmarking human alignment

多标准：在多标准遵循上对多模态评判模型进行基准测试 / Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

1️⃣ 一句话总结

这篇论文提出了一个名为Multi-Crit的基准测试，用于评估多模态模型在遵循多样化、细粒度评价标准方面的能力，发现现有模型在灵活遵循多标准和保持一致性方面仍有明显不足，为构建更可靠的多模态AI评估系统奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20814

arXiv 提交日期: 2025-11-25

computer vision model evaluation benchmark visual reasoning synthetic environment spatial reasoning reinforcement learning multimodal evaluation

SPHINX：一种用于视觉感知与推理的合成环境 / SPHINX: A Synthetic Environment for Visual Perception and Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为SPHINX的合成视觉推理测试平台，通过生成包含对称检测、空间推理等25类任务的谜题来评估模型能力，发现当前最先进模型表现远低于人类水平，并验证了基于可验证奖励的强化学习方法能有效提升模型在多模态推理任务上的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15552

arXiv 提交日期: 2025-11-19

multi-modal model evaluation benchmark multimodal evaluation russian language multimodal benchmarks slavic languages modality-specific architectures

俄语多模态架构评估 / Multimodal Evaluation of Russian-language Architectures

1️⃣ 一句话总结

这篇论文为俄语开发了首个多模态评估框架Mera Multi，通过18个新构建的任务全面测试模型在文本、图像、音频和视频上的能力，并提供了可复用的跨语言评估方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.04655

arXiv 提交日期: 2025-11-06

model evaluation benchmark multi-modal benchmark design bias detection multimodal evaluation test set analysis debiasing methods

基准设计者应“在测试集上训练”以暴露可利用的非视觉捷径 / Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

1️⃣ 一句话总结

这篇论文提出了一种新的基准测试设计方法，要求设计者主动在测试集上训练模型来发现并消除非视觉捷径，从而确保多模态大模型评估更依赖视觉理解而非数据偏见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02779

arXiv 提交日期: 2025-11-04

multi-modal benchmark model evaluation visual reasoning chain-of-thought multimodal evaluation intermediate images spatial reasoning

可视化是推理的第一步：MIRA，一个视觉思维链基准 / When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

1️⃣ 一句话总结

这篇论文提出了一个名为MIRA的新基准，用于评估人工智能模型在需要生成中间视觉图像（如草图或结构图）来辅助推理的任务上的表现，实验发现提供视觉线索能显著提升模型性能，强调了视觉想象在复杂推理中的关键作用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10518

arXiv 提交日期: 2025-10-12

model training video multi-modal reward modeling video generation visual reasoning reinforcement learning multimodal evaluation

VR-Thinker：通过图像思维推理提升视频奖励模型 / VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为VR-Thinker的新方法，通过让奖励模型主动选择和更新视频中的关键画面来进行视觉推理，从而显著提高了对长视频内容评估的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.16899

1️⃣ 一句话总结

arXiv ID: 2512.13168

1️⃣ 一句话总结

arXiv ID: 2512.03405

1️⃣ 一句话总结

arXiv ID: 2512.02231

1️⃣ 一句话总结

arXiv ID: 2511.21662

1️⃣ 一句话总结

arXiv ID: 2511.20814

1️⃣ 一句话总结

arXiv ID: 2511.15552

1️⃣ 一句话总结

arXiv ID: 2511.04655

1️⃣ 一句话总结

arXiv ID: 2511.02779

1️⃣ 一句话总结

arXiv ID: 2510.10518

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.16899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13168 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02231 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21662 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.04655 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02779 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10518 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.16899

arXiv ID: 2512.13168

arXiv ID: 2512.03405

arXiv ID: 2512.02231

arXiv ID: 2511.21662

arXiv ID: 2511.20814

arXiv ID: 2511.15552

arXiv ID: 2511.04655

arXiv ID: 2511.02779

arXiv ID: 2510.10518