arXiv ID:
2601.08521
你的组相对优势是有偏的 / Your Group-Relative Advantage Is Biased
1️⃣ 一句话总结
这篇论文发现,在基于验证器奖励的强化学习训练大语言模型时,广泛使用的组相对优势估计方法存在系统性偏差,导致模型对不同难度问题的探索和利用失衡,并提出了一种自适应的权重调整方案来纠正这一偏差,从而提升模型在数学推理等任务上的表现。