利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
1️⃣ 一句话总结
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
请先 登录 后再提交论文
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
ROOT:一种用于神经网络训练的鲁棒正交化优化器 / ROOT: Robust Orthogonalized Optimizer for Neural Network Training
这篇论文提出了一种名为ROOT的新型优化器,它通过自适应正交化和抗噪机制,有效解决了大模型训练中的不稳定问题,在噪声环境下比现有优化器收敛更快、性能更好。
Reg-DPO:利用GT-Pair和SFT正则化直接偏好优化以提升视频生成质量 / Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
本文提出了一种无需人工标注、能自动构建高质量训练数据并提升训练稳定性的视频生成优化方法,通过结合真实视频与生成视频构建对比样本并引入正则化技术,显著提高了视频生成的质量和效率。
SimpleTIR:面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
这篇论文提出了一种名为SimpleTIR的即插即用算法,通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练,从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。