arXiv ID:
2509.20293
arXiv 提交日期: 2025-09-24
当评判沦为噪音:LLM评判基准中的设计失败如何悄然破坏有效性 / When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
1️⃣ 一句话总结
这篇论文指出,当前使用大型语言模型作为评判者的基准测试存在严重设计缺陷,导致评分结果大部分是随机噪音而非有效评估,并提出了两种诊断工具来量化这些问题,呼吁构建更可靠、范围明确的基准测试体系。