arXiv最新AI论文速览速学

🔍

标签: #judge reliability ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following 05-12

arXiv ID: 2605.03858

arXiv 提交日期: 2026-05-05

llm benchmark model evaluation instruction following constraint-level evaluation judge reliability multi-constraint stability

MCJudgeBench：面向多约束指令跟随中约束级别评判的基准测试 / MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following

1️⃣ 一句话总结

该论文提出了一个名为MCJudgeBench的新基准，专门用于评估AI模型（如大语言模型）在判断复杂指令时，是否能逐一核对每条约束条件（而不是笼统地看整体回答），并发现即使是高性能的评判模型，在检测不常见或部分符合的约束时也会出错，且高准确性并不一定意味着高稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19532

arXiv 提交日期: 2026-01-27

llm benchmark model evaluation benchmark saturation evaluation noise dataset auditing judge reliability mathematical reasoning

当模型比评估者更聪明时，基准测试会趋于饱和 / Benchmarks Saturate When The Model Gets Smarter Than The Judge

1️⃣ 一句话总结

这篇论文通过构建一个高质量、经过人工审核的数学数据集（Omni-MATH-2），揭示了当前大语言模型基准测试中的一个关键问题：当模型能力超过评估工具（Judge）的理解水平时，评估工具本身的错误会掩盖模型间的真实性能差异，导致基准测试过早失效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.20293

arXiv 提交日期: 2025-09-24

llm benchmark model evaluation llm evaluation benchmark validity psychometric analysis judge reliability ranking uncertainty

当评判沦为噪音：LLM评判基准中的设计失败如何悄然破坏有效性 / When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

1️⃣ 一句话总结

这篇论文指出，当前使用大型语言模型作为评判者的基准测试存在严重设计缺陷，导致评分结果大部分是随机噪音而非有效评估，并提出了两种诊断工具来量化这些问题，呼吁构建更可靠、范围明确的基准测试体系。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.03858

1️⃣ 一句话总结

arXiv ID: 2601.19532

1️⃣ 一句话总结

arXiv ID: 2509.20293

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.03858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.20293 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.03858

arXiv ID: 2601.19532

arXiv ID: 2509.20293