arXiv ID:
2605.03858
arXiv 提交日期: 2026-05-05
MCJudgeBench:面向多约束指令跟随中约束级别评判的基准测试 / MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following
1️⃣ 一句话总结
该论文提出了一个名为MCJudgeBench的新基准,专门用于评估AI模型(如大语言模型)在判断复杂指令时,是否能逐一核对每条约束条件(而不是笼统地看整体回答),并发现即使是高性能的评判模型,在检测不常见或部分符合的约束时也会出错,且高准确性并不一定意味着高稳定性。