arXiv ID:
2512.16041
arXiv 提交日期: 2025-12-17
我们评估“大语言模型作为评判者”的方法正确吗? / Are We on the Right Way to Assessing LLM-as-a-Judge?
1️⃣ 一句话总结
这篇论文提出了一个名为Sage的无监督评估框架,它通过检验大语言模型作为评判者时的逻辑自洽性,发现当前顶尖模型在近四分之一困难案例中存在判断不一致的问题,并揭示了人类标注本身也并非完全可靠的黄金标准。