arXiv ID:
2603.11027
arXiv 提交日期: 2026-03-11
超越共识的幻象:从表面启发式到基于知识的评估——论大语言模型作为评判者 / Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge
1️⃣ 一句话总结
这篇论文挑战了‘大语言模型作为评判者时,评判结果高度一致就代表评估可靠’的普遍假设,指出这种共识常是假象,并提出了一个基于领域知识动态生成评估标准的新方法,能让评估在客观领域更一致、在主观领域更真实地反映多元观点。