arXiv ID:
2512.07783
arXiv 提交日期: 2025-12-08
论预训练、中期训练与强化学习在推理语言模型中的相互作用 / On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
1️⃣ 一句话总结
这项研究通过一个完全受控的实验框架发现,强化学习能否真正提升语言模型的推理能力,关键取决于预训练是否留有提升空间、训练数据是否针对模型能力的边界,并且揭示了中期训练在提升效率方面比单纯强化学习更有效。