🤖 系统
10-14 16:37
📄 论文总结
技能目标自适应训练方法 / Skill-Targeted Adaptive Training
1️⃣ 一句话总结
STAT是一种针对语言模型在监督微调后出现性能饱和问题的新型训练策略,通过利用强LLM的元认知能力识别学生模型的缺失技能,并针对性构建训练数据,显著提升模型在数学推理任务上的性能。
2️⃣ 论文创新点
1. STAT训练策略
- 创新点:利用强LLM作为教师模型,通过分析学生模型错误回答构建缺失技能档案,并据此调整训练数据分布
- 区别/改进:解决了传统SFT训练中的性能饱和问题,通过针对性训练弥补模型技能缺口
- 意义:在MATH基准上提升达7.5%,在分布外基准上平均提升4.6%,与RL方法形成互补
2. 缺失技能档案
- 创新点:教师模型监控学生模型的回答,跟踪每个技能在响应中未能成功应用的概率
- 区别/改进:提供了模型能力缺陷的量化分析,为针对性训练提供依据
- 意义:实现了基于技能评估的自适应训练数据选择与生成
3. STAT-Sel数据选择方法
- 创新点:基于模型在解决困难问题时缺失的技能重新加权训练集,选择与缺失技能相关的训练问题
- 区别/改进:改进了传统基于嵌入或验证集损失的数据选择方法,后者对饱和模型无效
- 意义:实现了针对模型具体技能短板的定向训练,在MATH数据集上带来显著性能提升
4. STAT-Syn数据合成方法
- 创新点:利用教师模型生成新的合成数学问题-答案对,以STAT-Sel选出的问题及其关联技能为参考,确保生成问题与目标技能相关且教师模型响应一致
- 区别/改进:相比Embed-Syn,STAT-Syn明确利用了技能图谱来指导合成过程,使生成的数据更具技能针对性
- 意义:通过合成高质量、技能对齐的训练数据,进一步增强了模型在目标技能上的泛化能力,尤其在OOD基准上显示出优势
5. 持续学习变体
- 创新点:提出了STAT-ConSel和STAT-ConSyn两种持续学习变体,它们在原有STAT-Sel或STAT-Syn模型的基础上,使用在目标基准上构建的Missing-Skill-Profile进行进一步训练
- 区别/改进:相比基础STAT方法在困难基准上仅1-2%的提升,持续学习变体带来3-4%的更大性能增益
- 意义:证明了STAT框架能够灵活适应不断变化的评估环境,通过技能感知训练为模型提供持续的适应能力解决方案
3️⃣ 主要结果与价值
结果亮点
- 在MATH数据集上取得显著性能提升,最高达6.7%平均增益
- 在困难问题上表现优于STAT-Sel,特别适合提升模型在挑战性任务上的表现
- 改进效果可泛化到OOD基准测试,包括GSM8K、AMC23、AIME等
- 与GRPO强化学习方法兼容,组合使用可获得额外4%提升
实际价值
- 解决了朴素SFT方法收益有限的问题,实现了针对性的技能改进
- 能够灵活适应新的评估环境,为模型提供持续学习能力
- 特别适合提升模型在基础代数计算等持续薄弱技能上的表现
4️⃣ 术语表
- STAT:Skill-Targeted Adaptive Training,技能目标自适应训练方法,一种针对模型缺失技能进行定制化训练的方法
- Missing-Skill-Profile:缺失技能档案,记录学生模型在各技能上失败概率的量化分析,用于指导STAT数据选择过程
- Skill-Map:技能图谱,从技能到需要该技能的训练问题集合的映射,通过提示LLM获取
- MATH:一个流行的数学问题求解数据集,用于模型训练和评估
- GRPO:一种基于强化学习的方法,通常接在SFT之后使用,与STAT方法兼容并可获得额外性能提升
- MATH-perturb-hard:一个更具挑战性的数学问题基准,用于评估模型在困难且不断演进的测试环境下的性能