arXiv ID:
2602.22585
arXiv 提交日期: 2026-02-26
基于项目反应理论校正AI评估中的人类评分者效应 / Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach
1️⃣ 一句话总结
这篇论文提出使用心理测量学中的项目反应理论(特别是多面Rasch模型)来分析和校正AI评估中人类评分者的系统性偏差(如评分严格度或趋中性),从而获得更可靠、更真实的AI模型性能估计,并以摘要任务为例展示了该方法的应用。