arXiv ID:
2601.05111
arXiv 提交日期: 2026-01-08
智能体作为裁判 / Agent-as-a-Judge
1️⃣ 一句话总结
这篇论文系统性地总结了人工智能评估领域从‘大语言模型作为裁判’向‘智能体作为裁判’的范式转变,指出后者通过规划、工具验证和多智能体协作等方式,能对复杂任务进行更可靠、可验证的评估,并为此领域建立了首个全面的发展框架和研究路线图。