arXiv ID:
2602.23166
AgentVista:在超挑战性真实视觉场景中评估多模态智能体 / AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
1️⃣ 一句话总结
这篇论文提出了一个名为AgentVista的新基准测试,用于评估多模态智能体在包含丰富视觉细节和需要长时间、多步骤工具协作的真实复杂任务中的表现,结果发现当前最先进的模型在此类任务上仍存在巨大能力差距。