arXiv ID:
2604.25419
arXiv 提交日期: 2026-04-28
JURY-RL:投票提出答案,证明决定奖励——无标签的强化学习验证框架 / JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
1️⃣ 一句话总结
本文提出JURY-RL方法,在不需要人工标注答案的情况下,通过让模型自己投票选出候选答案,再使用形式化验证器(如Lean)判断该答案是否正确,仅在验证成功时才给予奖励,从而稳定地提升了大型语言模型在数学推理等任务上的推理能力,效果接近使用标准答案进行训练的方法。