🤖 系统
11-30 17:26
📄 论文总结
MCP-Bench:通过MCP服务器对使用工具的LLM智能体在复杂现实任务中的基准测试 / MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
1️⃣ 一句话总结
这篇论文提出了一个名为MCP-Bench的新基准测试,通过连接28个真实领域的工具服务器,评估大型语言模型在需要多步骤规划、工具协调和跨领域工作流的复杂现实任务中的表现,发现现有先进模型仍面临显著挑战。