🤖 系统
11-30 17:31
📄 论文总结
MCP-AgentBench:利用MCP中介工具评估真实世界语言代理性能 / MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
1️⃣ 一句话总结
本研究提出了一个名为MCP-AgentBench的新基准测试,专门用于在真实场景下评估人工智能代理使用标准化工具的能力,旨在解决现有评估方法无法准确反映AI代理在实际应用中的表现差异的问题。