arXiv ID:
2512.04220
arXiv 提交日期: 2025-12-03
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
1️⃣ 一句话总结
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。