🤖 系统
11-30 17:30
📄 论文总结
散度选择:一个被忽视的缓解带可验证奖励强化学习中多样性崩溃的关键 / The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过选择特定的散度度量来防止大型语言模型在强化学习微调过程中丢失多样性,从而同时提升单次和多次尝试的生成性能。