arXiv ID:
2512.21625
arXiv 提交日期: 2025-12-25
重新思考可验证奖励强化学习中的样本极性 / Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
这篇论文通过研究发现,在训练大型推理模型时,使用正确(正极性)和错误(负极性)的推理路径分别能强化已有模式和探索新路径,并据此提出了一种名为A3PO的新方法,能更智能地分配奖励信号,从而在多个推理任务上取得了更好的效果。