arXiv ID:
2605.20865
arXiv 提交日期: 2026-05-20
基于可验证奖励的强化学习中的多步似然比修正 / Multi-Step Likelihood-Ratio Correction for Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
本文提出一种名为NFPO的新算法,通过在PPO目标函数中引入多步似然比修正,有效平衡了策略优化的偏差与方差,从而显著提升了大语言模型在推理任务中的表现。