← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm agents
详细标签: tool usage model context protocol multi-agent evaluation pomdp framework benchmarking 或 搜索:

📄 论文总结

MCP-Bench:基于模型上下文协议的多领域工具使用基准测试框架

MCP-Bench: A Benchmark for Evaluating Tool-Using LLM Agents via Model Context Protocol


1️⃣ 一句话总结

MCP-Bench是一个基于真实MCP服务器构建的基准测试框架,通过连接28个生产级服务器和250个跨领域工具,全面评估大型语言模型在复杂多步骤现实任务中的工具使用能力。


2️⃣ 论文创新点

1. 真实MCP生态系统的基准构建

2. 多维度评估框架

3. 模糊指令变体生成

4. POMDP形式化框架


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF