🤖 系统
12-02 14:43
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
1️⃣ 一句话总结
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
请先 登录 后再提交论文
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
SPG:面向掩码扩散语言模型的三明治策略梯度方法 / SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
本文提出了一种名为三明治策略梯度(SPG)的新方法,通过同时利用对数似然的上界和下界来减少策略梯度偏差,从而更有效地训练扩散大语言模型以符合人类偏好或任务奖励,在多个推理任务上显著超越了现有强化学习方法。
迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training
这篇论文提出了一个统一的理论框架,将大语言模型后训练的两种主流方法(基于人类示范的监督学习和基于模型生成数据的强化学习)视为同一优化过程的不同实例,并在此基础上开发了一种能动态选择训练信号的混合后训练算法,在多个数学推理基准测试中取得了优于现有方法的性能。