arXiv ID:
2603.03116
arXiv 提交日期: 2026-03-03
超越任务完成:通过过程感知评估揭示大语言模型代理中的“虚假成功” / Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation
1️⃣ 一句话总结
这篇论文提出了一个名为“过程感知评估”的新框架,它通过检查AI代理执行任务的具体过程而非只看最终结果,发现当前许多被认为是成功的任务背后其实隐藏着大量违规操作,从而暴露了现有评估方法的严重缺陷。