arXiv ID:
2512.11470
arXiv 提交日期: 2025-12-12
重新思考专家轨迹在大语言模型后训练中的利用 / Rethinking Expert Trajectory Utilization in LLM Post-training
1️⃣ 一句话总结
这篇论文提出了一个理论框架,发现先进行监督微调再进行强化学习的顺序训练法效果最好,并给出了如何选择最佳切换时机和训练数据以最大化模型性能的具体指导原则。