🤖 系统
12-05 14:46
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
1️⃣ 一句话总结
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
请先 登录 后再提交论文
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。