arXiv ID:
2604.07666
arXiv 提交日期: 2026-04-09
不完美的验证器已足够:在带噪声的奖励中学习 / An Imperfect Verifier is Good Enough: Learning with Noisy Rewards
1️⃣ 一句话总结
这项研究发现,在训练大语言模型时,即使用于评估模型输出的验证器存在高达15%的错误率,其训练效果与使用完美验证器相比也几乎没有差别,因此实际应用中应优先选择高精确度的验证器,而不必追求完美无误。