arXiv ID:
2601.07389
arXiv 提交日期: 2026-01-12
论大语言模型后训练中监督微调与强化学习的不可分离性 / On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training
1️⃣ 一句话总结
这篇论文通过理论和实验证明,在大语言模型的后训练阶段,监督微调和强化学习这两种方法是紧密耦合、不可分离的,强行拆开会损害模型性能。