arXiv ID:
2605.02375
arXiv 提交日期: 2026-05-04
二元奖励与强化学习:根本性挑战 / Binary Rewards and Reinforcement Learning: Fundamental Challenges
1️⃣ 一句话总结
这篇论文揭示了在语言模型中使用二元奖励进行强化学习时,模型虽然能提高单次回答的正确率,但会导致多样性和覆盖率下降,并从理论层面解释了这一现象的根源:二元奖励使优化目标存在内在缺陷,而常用的KL正则化方法虽然能在理想情况下选出接近基模型的有效答案分布,但在实际模型不匹配时,反而会促使模型只生成少量重复的正确回答,从而失去多样性。