arXiv ID:
2606.04889
arXiv 提交日期: 2026-06-03
GRAIL:基于梯度重加权优势的强化学习在可验证奖励中的应用 / GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
本文提出了一种名为GRAIL的新方法,通过利用每个token对最终答案的敏感程度来重新分配奖励信号,从而克服了传统强化学习方法中错误推理步骤与有效步骤被同等更新的问题,在不依赖昂贵过程奖励模型的情况下,显著提升了大型语言模型在数学推理任务上的准确率。