arXiv ID:
2604.25122
M³-VQA:面向多模态、多实体、多跳视觉问答的基准数据集 / M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering
1️⃣ 一句话总结
该论文提出了一个名为M³-VQA的新型视觉问答基准,专门设计用于测试多模态大模型在同时处理多个实体、结合文本与图像信息,并进行多步推理方面的能力,实验发现现有模型在没有外部知识时表现很差,但提供精确证据后性能显著提升,同时结构化推理比简单搜索更有效。