arXiv最新AI论文速览速学

🔍

标签: #mllm evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering 04-29

arXiv ID: 2604.25122

arXiv 提交日期: 2026-04-28

multi-modal benchmark llm visual question answering multi-hop reasoning mllm evaluation knowledge base retrieval-augmented

M³-VQA：面向多模态、多实体、多跳视觉问答的基准数据集 / M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

1️⃣ 一句话总结

该论文提出了一个名为M³-VQA的新型视觉问答基准，专门设计用于测试多模态大模型在同时处理多个实体、结合文本与图像信息，并进行多步推理方面的能力，实验发现现有模型在没有外部知识时表现很差，但提供精确证据后性能显著提升，同时结构化推理比简单搜索更有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.03146

arXiv 提交日期: 2025-11-05

multi-modal benchmark model evaluation cognitive capacity visual reasoning mllm evaluation spatial reasoning geometric reasoning

MME-CC：一个具有挑战性的认知能力多模态评估基准 / MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

1️⃣ 一句话总结

这篇论文提出了一个名为MME-CC的新基准，专门用于系统评估多模态大模型在视觉相关认知能力（如空间、几何和知识推理）上的表现，发现当前模型在这些方面普遍较弱，并揭示了常见的错误模式，旨在推动未来模型设计的改进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01833

arXiv 提交日期: 2025-11-03

benchmark agents multi-modal visual reasoning tool use image processing mllm evaluation agentic thinking

TIR-Bench：面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为TIR-Bench的新基准测试，专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力，填补了现有测试在衡量高级视觉思维方面的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19493

arXiv 提交日期: 2025-08-27

multi-modal agents benchmark privacy awareness smartphone agents mllm evaluation sensitivity detection utility-privacy tradeoff

警惕第三只眼！评估MLLM驱动的智能手机助手的隐私意识 / Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

1️⃣ 一句话总结

这项研究首次大规模评估了多模态大模型驱动的智能手机助手的隐私意识，发现它们在处理用户敏感信息时普遍表现不佳，即使有明确提示，隐私识别率也低于60%，揭示了当前智能助手在功能与隐私保护之间存在严重失衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25122

1️⃣ 一句话总结

arXiv ID: 2511.03146

1️⃣ 一句话总结

arXiv ID: 2511.01833

1️⃣ 一句话总结

arXiv ID: 2508.19493

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25122 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.03146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19493 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25122

arXiv ID: 2511.03146

arXiv ID: 2511.01833

arXiv ID: 2508.19493