MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

📄 Abstract - MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.

MobileWorld：一个更具挑战性的移动GUI智能体基准测试 / MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

1️⃣ 一句话总结

本文提出了MobileWorld，一个比现有基准（如AndroidWorld）更具挑战性的移动GUI智能体基准测试，它通过引入更高复杂度的任务、智能体-用户交互任务和MCP增强任务，更真实地反映了现实世界的移动使用场景，并揭示了当前最佳模型在复杂交互和外部工具调用方面的显著不足。

2️⃣ 论文创新点

1. 高复杂度与真实性的基准测试设计

创新点：MobileWorld包含201个任务，覆盖20个应用，强调长视野、跨应用交互的任务（平均完成27.8步，62.2%为多应用任务），显著提升了任务复杂度。
区别/改进：克服了现有移动基准测试（如AndroidWorld）的任务饱和、指令完全指定假设、缺乏外部工具集成以及真实性与确定性验证难以平衡等问题。
意义：为下一代移动智能研究提供了更贴近真实场景、更具区分度的评估标准，揭示了当前模型在核心能力上的巨大差距。

2. 引入智能体-用户交互任务

创新点：设计了需要智能体识别指令歧义并主动发起澄清对话的任务类型，模拟现实世界中用户指令模糊不清的场景。
区别/改进：突破了以往基准测试假设用户指令清晰明确的局限，要求智能体必须主动寻求澄清才能成功完成任务。
意义：更真实地反映了实际应用挑战，能够系统性地评估智能体识别知识边界和进行协作对话的能力，是迈向更自然、协作式人机交互的关键一步。MobileWorld中22.4%的任务涉及此类交互。

3. 引入MCP增强任务

创新点：设计了需要智能体结合外部工具调用（通过Model Context Protocol, MCP）和传统的GUI操作来完成任务的任务类型。
区别/改进：考虑了现实世界中GUI交互与MCP工具访问共存的场景，而不仅仅是假设所有应用都配备了完善的MCP接口。
意义：评估了智能体在混合交互模式下的能力，使其能够更有效地利用外部资源和功能完成任务，这是解决超越传统智能手机功能任务所必需的。

4. 确定性评估基础设施

创新点：构建了基于自托管开源替代品（如Mattermost）、可访问后端数据库的完全可观测和受控环境。
区别/改进：解决了以往对商业应用（如Gmail、YouTube）评估时因强制认证和不透明内部状态导致的随机性和噪声问题，取代了“MLLM-as-a-judge”评估。
意义：提供了可复现、标准化的“一键式”评估协议，支持严格的社区基准测试，确保评估结果的绝对确定性。

5. 规划器-执行器智能体框架

创新点：为满足基准独特需求而提出的竞争性基线框架，扩展了原始动作空间，引入了ask_user和mcp_call动作。
区别/改进：将GUI操作、多轮用户交互和外部工具使用统一在单个闭环决策过程中，实现了无缝集成。
意义：在MobileWorld上达到了51.7%的SOTA成功率，为社区提供了一个强大的评估基线。

3️⃣ 主要结果与价值

结果亮点

当前最佳智能体框架和端到端模型在MobileWorld上的成功率分别仅为51.7%和20.9%，远低于在AndroidWorld上的表现，揭示了现有模型在处理用户交互和MCP调用方面的显著不足。
在新引入的任务类别上，模型能力出现崩溃：交互任务成功率低于10%，MCP任务成功率接近0%。
为MobileWorld设计的规划器-执行器框架实现了51.7%的SOTA成功率，证明了该框架处理混合动作空间的有效性。

实际价值

为移动智能体的研发提供了更全面、更贴近现实的评估标准，推动了更自主、用户感知的移动智能发展。
提出的确定性评估方法和容器化环境为可靠、可重复的基准测试提供了技术保障。
识别出的模型能力短板（如交互澄清、工具选择）为未来研究指明了方向，并提出了五个开放研究挑战。

4️⃣ 术语表

MobileWorld：本文提出的移动GUI智能体基准测试，包含20个应用和201个任务，特点是支持智能体-用户交互任务、MCP增强任务、需要后端应用，并实现确定性评估。
Model Context Protocol (MCP)：一种用于工具集成的标准化协议。在MobileWorld中，MCP增强任务要求智能体在GUI操作和基于API的工具调用之间做出策略选择。
智能体-用户交互任务 (Agent-user Interaction Task)：MobileWorld中设计的一类任务，其中任务目标的关键信息被故意省略，模拟现实世界中用户指令模糊不清的场景，迫使GUI智能体主动请求澄清。
MCP增强任务 (MCP-augmented Task)：MobileWorld中设计的一类任务，需要智能体将MCP工具调用与标准GUI操作相结合才能成功。
规划器-执行器框架 (Planner-Executor Framework)：为MobileWorld设计的智能体框架，由规划器（负责高层动作决策和UI元素描述生成）和接地执行器（负责将描述转换为具体像素坐标并执行）组成，支持ask_user和mcp_call扩展操作。
POMDP (Partially Observable Markov Decision Process)：部分可观测马尔可夫决策过程，用于形式化标准移动GUI智能体任务，定义了状态空间、观测空间、动作空间、转移函数和二元奖励。
AVD (Android Virtual Device) snapshot：Android虚拟设备的快照，用于捕获完整的设备状态。在MobileWorld中用于确保每次任务评估都从预定的、一致的初始状态开始，保证可复现性。
应用回调 (Application Callbacks)：一种评估方法，通过实现回调API来捕获应用执行过程中的中间状态，并将其持久化以供评估者查询任务成功与否。
成功率 (Success Rate, SR)：衡量代理成功完成任务的比例。对于MobileWorld中的每个任务i，分配一个二进制分数si ∈ {0, 1}，其中si = 1表示任务目标完全实现，si = 0表示未实现。成功率计算为所有任务si的平均值。
平均完成步数 (Average Completion Steps, Ave. Steps)：表示所有执行轨迹中采取的平均行动步骤数。对于任务i，ti是其轨迹中的步骤数（包括成功和失败的片段）。平均完成步骤定义为所有任务ti的平均值。在成功率可比的情况下，较低的值反映了更高的执行效率。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 高复杂度与真实性的基准测试设计

2. 引入智能体-用户交互任务

3. 引入MCP增强任务

4. 确定性评估基础设施

5. 规划器-执行器智能体框架

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 高复杂度与真实性的基准测试设计

2. 引入智能体-用户交互任务

3. 引入MCP增强任务

4. 确定性评估基础设施

5. 规划器-执行器智能体框架

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要