arXiv ID:
2509.04419
迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training
1️⃣ 一句话总结
这篇论文提出了一个统一的理论框架,将大语言模型后训练的两种主流方法(基于人类示范的监督学习和基于模型生成数据的强化学习)视为同一优化过程的不同实例,并在此基础上开发了一种能动态选择训练信号的混合后训练算法,在多个数学推理基准测试中取得了优于现有方法的性能。