arXiv ID:
2509.24375
arXiv 提交日期: 2025-09-29
强化中段训练 / Reinforcement Mid-Training
1️⃣ 一句话总结
这篇论文提出了一种在预训练和微调之间加入强化中段训练的新方法,通过动态控制推理步骤、自适应学习关键知识点和双重训练策略,显著提升了语言模型的性能和效率。