arXiv ID:
2510.14943
arXiv 提交日期: 2025-10-16
LaSeR:基于末位令牌自我奖励的强化学习 / LaSeR: Reinforcement Learning with Last-Token Self-Rewarding
1️⃣ 一句话总结
这篇论文提出了一种名为LaSeR的新方法,通过仅利用模型生成答案后最后一个令牌的预测概率来高效实现自我奖励,从而在无需复杂验证流程的情况下,同时提升大型语言模型的推理能力和自我评估性能。