arXiv ID:
2601.12346
MMDeepResearch-Bench:面向多模态深度研究智能体的基准测试 / MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
1️⃣ 一句话总结
这篇论文提出了一个名为MMDeepResearch-Bench的新基准测试,专门用于评估多模态深度研究智能体如何利用图像和文本证据来生成带引用的长篇研究报告,并开发了一套可解释的评估方法来诊断模型在报告质量、引用忠实度和图文一致性方面的系统性问题。