arXiv ID:
2605.14865
arXiv 提交日期: 2026-05-14
AI智能体的全面评估与故障诊断 / Holistic Evaluation and Failure Diagnosis of AI Agents
1️⃣ 一句话总结
本文提出了一个两层结构的评估框架,能对AI智能体执行复杂任务时的每个步骤分别进行独立诊断和定位错误,从而大幅提升错误分类和定位的准确性,实验表明评估方法本身比模型能力更关键。