arXiv ID:
2512.19432
arXiv 提交日期: 2025-12-22
MobileWorld:一个更具挑战性的移动GUI智能体基准测试 / MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
1️⃣ 一句话总结
本文提出了MobileWorld,一个比现有基准(如AndroidWorld)更具挑战性的移动GUI智能体基准测试,它通过引入更高复杂度的任务、智能体-用户交互任务和MCP增强任务,更真实地反映了现实世界的移动使用场景,并揭示了当前最佳模型在复杂交互和外部工具调用方面的显著不足。