← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm agents systems
详细标签: benchmarking tool learning context protocols automated evaluation multi-component planning 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了LiveMCPBench——首个支持大规模、动态MCP(Model Context Protocol)环境的基准测试框架,包含任务集(95个真实任务)、工具集(527个工具)和自动化评估系统(LLM-as-a-Judge),并揭示了当前LLM在工具调用中的核心缺陷,为多组件规划研究提供了标准化评估平台。


2️⃣ 论文创新点

1. 首个真实场景MCP评估框架(LiveMCPBench)

2. 去依赖化工具集(LiveMCPTool)

3. 动态评估系统(LiveMCPEval)

4. 智能体架构(MCP Copilot Agent)


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


(注:合并重复术语如MCP的两种解释为统一协议定义,省略具体模型名称如Claude-Sonnet-4等非框架核心术语)

📄 打开原文 PDF