📄 论文总结
VCRL:基于方差的课程强化学习用于大型语言模型 / VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为VCRL的课程强化学习方法,通过动态调整训练样本的难度来模拟人类从易到难的学习过程,从而更有效地提升大型语言模型在数学推理任务上的表现。
请先 登录 后再提交论文
VCRL:基于方差的课程强化学习用于大型语言模型 / VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
这篇论文提出了一种名为VCRL的课程强化学习方法,通过动态调整训练样本的难度来模拟人类从易到难的学习过程,从而更有效地提升大型语言模型在数学推理任务上的表现。
WebSailor-V2:通过合成数据与可扩展强化学习弥合与专有智能体之间的差距 / WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
这篇论文提出了一种名为WebSailor的训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI模型在复杂信息搜索任务中达到与专有系统相当的性能水平。
单流策略优化 / Single-stream Policy Optimization
本文提出了一种名为SPO的单流策略优化方法,通过使用持久化价值跟踪器和全局优势归一化,解决了现有分组方法在训练大语言模型时存在的不稳定和效率低下的问题,从而实现了更平滑的收敛和更高的推理精度。
基于修复引导的策略优化用于扩散大语言模型 / Inpainting-Guided Policy Optimization for Diffusion Large Language Models
这篇论文提出了一种名为IGPO的新方法,利用扩散大语言模型的文本修复能力来引导强化学习过程,有效解决了训练中的探索效率低和样本浪费问题,在多个数学推理任务上取得了领先的性能。
基于监督学习框架的隐式行动者评论家耦合强化学习可验证奖励方法 / Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
这篇论文提出了一种名为PACS的新方法,通过将强化学习中的可验证奖励问题转化为监督学习任务,巧妙地结合了行动者和评论家的角色,从而在数学推理等任务上实现了更稳定高效的训练和更优的性能表现。
SimpleTIR:面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
这篇论文提出了一种名为SimpleTIR的即插即用算法,通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练,从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。
LLaVA-Critic-R1:你的评价模型其实是一个强大的策略模型 / LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
这篇论文挑战了传统观念,通过将评价模型的数据重新组织并用于强化学习训练,开发出一个既能评价又能生成内容的统一视觉语言模型,在多项视觉推理任务中表现优异,甚至超越了专门训练的策略模型。
PVPO:基于预估值驱动的策略优化用于智能体推理 / PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
本文提出了一种名为PVPO的新型强化学习方法,通过预采样数据和引入优势参考锚点来减少计算成本并避免策略陷入局部最优,在多个任务和模型规模上均实现了领先性能。
TreePO:基于启发式树建模弥合策略优化效果与推理效率之间的差距 / TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
这篇论文提出了一种名为TreePO的新方法,通过将文本生成视为树状搜索过程,在提升大语言模型推理多样性的同时,大幅降低了计算成本和采样时间,实现了效果与效率的双重优化。