← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm agents
详细标签: unified training framework policy gradient optimization supervised fine-tuning reinforcement learning mathematical reasoning 或 搜索:

📄 论文总结

统一后训练:大型语言模型监督微调与强化学习的统一视角

Unify Post-Training: A Unified View of Supervised Fine-Tuning and Reinforcement Learning for Large Language Models


1️⃣ 一句话总结

本文提出了统一策略梯度估计器(UPGE)框架,将监督微调(SFT)和强化学习(RL)的后训练方法统一到一个优化目标中,并基于此开发了混合后训练(HPT)算法,能够动态选择训练信号,在多个数学推理基准上实现了最先进的性能。


2️⃣ 论文创新点

1. 统一策略梯度估计器(UPGE)

2. 混合后训练(HPT)算法


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF