arXiv ID:
2601.21817
arXiv 提交日期: 2026-01-29
一种无需真实标签评估大语言模型的法官感知排序框架 / A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth
1️⃣ 一句话总结
这篇论文提出了一种新的评估方法,通过考虑不同AI‘裁判’的可靠性差异来更准确地给大语言模型排名,无需标准答案,从而得到更可信、更高效的评估结果。