arXiv ID:
2606.04466
arXiv 提交日期: 2026-06-03
学习该学什么:面向小模型推理中指令微调后强化学习的分阶段数据集设计 / Learning What to Learn: Stage-Specific Data Sets for SFT-then-RL in Small Language Model Reasoning
1️⃣ 一句话总结
针对小语言模型推理训练中的两阶段流程(先指令微调再强化学习),本文提出根据每个阶段的学习目标来分级组织数据:指令微调阶段重点提供模型尚未掌握的困难样本,并设计“桥梁机制”使其更容易理解;强化学习阶段则专注巩固模型已能部分解决的样本,并利用失败案例进行“批判性微调”来补充训练,从而显著提升模型在多个推理任务上的表现。