论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
1️⃣ 一句话总结
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
请先 登录 后再提交论文
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
PORTool:基于奖励树的工具使用大语言模型训练方法 / PORTool: Tool-Use LLM Training with Rewarded Tree
这篇论文提出了一种名为PORTool的强化学习方法,通过构建树状轨迹并分配步骤奖励来训练大语言模型更有效地使用外部工具,从而在动态环境中提升问题解决的准确性和效率。
通过持续预训练扩展智能体能力 / Scaling Agents via Continual Pre-training
这篇论文提出了一种名为Agentic CPT的持续预训练方法,通过构建强大的智能体基础模型来解决现有方法在复杂任务中表现不佳的问题,并在多个基准测试中取得了领先性能。
UI-S1:通过半在线强化学习推进图形用户界面自动化 / UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
这篇论文提出了一种名为‘半在线强化学习’的新方法,通过在离线数据上模拟在线交互来有效训练图形界面自动化代理,既保证了训练稳定性又提升了多步骤任务的执行能力,在多个基准测试中取得了领先性能。
面向深度研究的开放数据合成 / Open Data Synthesis For Deep Research
这篇论文提出了一个名为InfoSeek的框架,通过自动生成复杂的多步骤研究问题数据集,有效训练大语言模型进行深度推理,使小模型在复杂任务上能媲美甚至超越大模型的表现。