arXiv ID:
2512.11150
arXiv 提交日期: 2025-12-11
因果评委评估:面向大语言模型系统的校准替代指标 / Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems
1️⃣ 一句话总结
本文提出了一种名为“因果评委评估”的新框架,通过校准廉价AI评委的评分、稳定统计权重并考虑校准不确定性,解决了当前主流的大语言模型评估方法在统计上不可靠、偏好可能颠倒以及置信区间失效的问题,从而以极低的成本实现了接近人工标注的准确评估。