📄 论文总结
RLVE:通过自适应可验证环境扩展语言模型的强化学习 / RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
1️⃣ 一句话总结
这篇论文提出了一种名为RLVE的新方法,通过创建大量能自动调整题目难度的可验证环境来训练语言模型,显著提升了模型在多种推理任务上的表现,且比传统强化学习方法更高效。
请先 登录 后再提交论文
RLVE:通过自适应可验证环境扩展语言模型的强化学习 / RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
这篇论文提出了一种名为RLVE的新方法,通过创建大量能自动调整题目难度的可验证环境来训练语言模型,显著提升了模型在多种推理任务上的表现,且比传统强化学习方法更高效。
SofT-GRPO:通过Gumbel重参数化软思维策略优化超越离散令牌大语言模型强化学习 / SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
这项研究提出了一种名为SofT-GRPO的新算法,通过引入Gumbel噪声和重参数化技术,成功实现了对软思维推理模式大语言模型的强化学习训练,使其在多项测试中超越了传统的离散令牌强化学习方法。
竞争性编程代码生成中基于可验证奖励的强化学习数据管理最佳实践 / DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
这篇论文提出了一套针对竞争性编程代码生成任务的数据管理和强化学习训练方法,通过两阶段强化学习和课程设计,使模型在代码竞赛中达到了与顶尖系统相当的性能。
VideoSSR:视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning
本研究提出了一种名为VideoSSR的视频自监督强化学习框架,通过设计三种无需人工标注的自监督任务来生成高质量训练数据,有效提升了多模态大语言模型在多种视频理解任务上的性能,平均提升超过5%。
强化学习提升大语言模型对层级知识的遍历能力 / Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
这项研究发现强化学习并非像传统观点认为的那样会损害语言模型的记忆知识,而是通过提升模型在已有知识层级中搜索和导航的‘程序性技能’,使其在需要遍历结构化知识(如医疗代码)的回忆任务中表现更优。
TimeSearch-R:通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
这篇论文提出了一种名为TimeSearch-R的新方法,它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧,从而更完整、准确地理解视频内容,并在多个基准测试中取得了领先性能。
人形机器人视觉驱动反应式足球技能学习 / Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots
这项研究开发了一种将视觉感知与运动控制直接结合的统一强化学习方法,使人形机器人能够在动态环境中实时做出连贯而稳健的足球动作响应。
通过经验合成扩展智能体学习 / Scaling Agent Learning via Experience Synthesis
这篇论文提出了一个名为DreamGym的框架,它通过合成多样化的虚拟经验数据来高效训练强化学习智能体,从而克服了传统方法依赖真实环境交互成本高、任务单一等难题,并在多种测试中显著提升了训练效果和实际应用性能。
更短但不更差:通过简单样本作为数学RLVR中的长度正则化器进行节俭推理 / Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
这项研究发现,在训练大型语言模型进行数学推理时,保留并适度增加中等难度问题的权重可以有效防止模型产生冗长输出,从而在不牺牲准确性的前提下,使模型学会用更短的推理步骤解决复杂问题。
基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance
这篇论文提出了一种名为CROPI的新方法,通过理论指导的数据选择技术,大幅提升了大型语言模型在强化学习训练中的效率,仅用10%的数据就能实现2.66倍的加速效果。