arXiv ID:
2605.02050
arXiv 提交日期: 2026-05-03
人工智能评估中随机对照试验的原则与指南 / Principles and Guidelines for Randomized Controlled Trials in AI Evaluation
1️⃣ 一句话总结
本文为AI评估中的随机对照试验(RCT)建立了一套包含33条具体指南的框架,在传统四维度有效性评估基础上增加透明度与可重复性原则,帮助研究者更科学地衡量AI对人类实际表现的提升效果,而不仅仅是模型本身的准确性。