arXiv ID:
2604.01508
arXiv 提交日期: 2026-04-02
ToolMisuseBench:一个用于评估智能体系统工具误用与恢复能力的离线确定性基准 / ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems
1️⃣ 一句话总结
这篇论文提出了一个名为ToolMisuseBench的标准化测试平台,专门用来评估和提升AI智能体在调用工具时犯错(如参数错误、接口不匹配)后的自我修复能力,并提供了一个包含6800个任务的数据集和评估流程。