arXiv ID:
2512.16912
arXiv 提交日期: 2025-12-18
探索与利用:通过裁剪、熵和虚假奖励重新思考可验证奖励强化学习 / Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
1️⃣ 一句话总结
这篇论文通过分析虚假奖励和熵最小化这两种看似矛盾的方法,揭示了它们如何协同作用,在可验证奖励强化学习中提升大语言模型的推理能力,并解释了其背后的机制。