arXiv ID:
2601.16973
arXiv 提交日期: 2026-01-23
VisGym:用于多模态智能体的多样化、可定制、可扩展的环境套件 / VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
1️⃣ 一句话总结
这篇论文提出了一个名为VisGym的多样化测试平台,用于评估和训练视觉语言模型在复杂交互任务中的表现,结果发现当前顶尖模型在需要多步骤视觉决策的任务上表现不佳,并指出了其具体缺陷和改进方向。