arXiv ID:
2605.02122
arXiv 提交日期: 2026-05-04
STABLEVAL:一种考虑分歧且稳定的AI系统评估方法 / STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems
1️⃣ 一句话总结
本文提出了一种名为STABLEVAL的新评估框架,它通过建模标注者之间的分歧和混淆模式,而不是简单地取多数票,从而在评估AI系统时获得比传统方法更稳定、更可靠的排名结果。