arXiv ID:
2605.10787
arXiv 提交日期: 2026-05-11
复杂MCP:在动态、相互依赖的大规模工具沙箱中评估LLM智能体 / ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox
1️⃣ 一句话总结
该论文提出了一个名为ComplexMCP的基准测试,通过模拟真实商业软件中工具相互依赖、环境动态变化且可能出错的复杂场景,发现当前最先进的AI智能体成功率不足60%,远低于人类的90%,并揭示了工具检索、过度自信和策略性放弃三大瓶颈。