← 返回列表

菜单

🤖 系统
📄 Abstract - MCP-AgentBench: A Comprehensive Benchmark for Evaluating Language Agents in Model Context Protocol Environments
正在获取摘要...
顶级标签: agents
详细标签: model context protocol tool usage language agents evaluation framework llm-as-judge 或 搜索:

📄 论文总结

MCP-AgentBench:面向模型上下文协议的语言代理综合评估基准

MCP-AgentBench: A Comprehensive Benchmark for Evaluating Language Agents in Model Context Protocol Environments


1️⃣ 一句话总结

MCP-AgentBench是一个专门为评估语言代理在模型上下文协议(MCP)环境中的工具使用能力而设计的综合基准测试平台,包含精心构建的服务器测试平台、多样化查询集和创新的结果导向评估方法MCP-Eval。


2️⃣ 论文创新点

1. MCP服务器测试平台

2. MCP-Eval评估方法

3. 多维度查询复杂度分类框架


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF