arXiv ID:
2603.11001
arXiv 提交日期: 2026-03-11
随机对照试验与人类提升研究:前沿人工智能评估的方法论挑战与实践解决方案 / RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation
1️⃣ 一句话总结
这篇论文指出,尽管随机对照试验被广泛用于评估前沿AI对人类表现的影响,但由于AI系统快速演变、用户能力差异大等特性,传统因果推断的假设在实际应用中面临严峻挑战,作者通过访谈专家总结了这些挑战及应对方案,以明确此类证据在高风险决策中的适用边界。