arXiv ID:
2606.11686
arXiv 提交日期: 2026-06-10
分层隔离评估:用无语言模型、回归锁定的测试框架来门控生产级大语言模型代理的确定性骨架 / Layer-Isolated Evaluation: Gating the Deterministic Scaffold of a Production LLM Agent with a No-LLM, Regression-Locked Test Harness
1️⃣ 一句话总结
这篇论文提出了一种新的评估方法,将大语言模型驱动的智能代理分解为多个独立的功能层(如意图识别、路由、记忆等),并用纯确定性测试来单独检测每一层的问题,从而避免传统整体成功率指标掩盖具体错误,帮助开发者精确定位并快速修复回归缺陷。