arXiv ID:
2606.22737
GroundEval:面向有状态智能体评估的确定性替代方案,取代大语言模型担任裁判 / GroundEval: A Deterministic Replacement for LLM-as-Judge in Stateful Agent Evaluation
1️⃣ 一句话总结
该论文提出了一种名为GroundEval的新评估框架,通过核查智能体实际搜索、获取和引用的证据轨迹,而不是仅依赖大语言模型对最终答案的主观打分,从而更准确地检测智能体是否基于真实依据而非貌似合理的表面信息给出回答。