arXiv ID:
2606.18810
从自身解答中学习:面向可验证奖励强化学习的自条件化信用分配 / Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
本文提出SC-GRPO方法,通过让模型对比自身在有无正确轨迹条件下的输出差异,自动为每个词元分配更合理的奖励权重,从而在不依赖额外模型或外部信息的情况下,显著提升大语言模型在数学、代码等推理任务上的强化学习效果。