🤖 系统
11-30 17:34
📄 论文总结
当评判沦为噪音:LLM评判基准中的设计失败如何悄然破坏有效性 / When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
1️⃣ 一句话总结
这篇论文指出,当前使用大型语言模型作为评判者的基准测试存在严重设计缺陷,导致评分结果大部分是随机噪音而非有效评估,并提出了两种诊断工具来量化这些问题,呼吁构建更可靠、范围明确的基准测试体系。