🤖 系统
11-30 17:36
📄 论文总结
低概率令牌在可验证奖励强化学习中维持探索 / Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
1️⃣ 一句话总结
这篇论文提出了一种名为低概率正则化的新方法,通过保护大语言模型中具有探索价值的低概率令牌不被过度惩罚,解决了强化学习训练中探索能力过早衰退的问题,从而在数学推理任务上实现了更稳定和高效的性能提升。