🤖 系统
10-14 16:53
📄 论文总结
LightReasoner:基于专家-业余模型对比的大语言模型推理增强框架 / LightReasoner: Enhancing LLM Reasoning through Expert-Amateur Model Contrast
1️⃣ 一句话总结
LightReasoner是一个通过对比专家模型与业余模型的行为差异来自动识别关键推理步骤并进行针对性微调的高效框架,无需真实标签即可显著提升大语言模型的推理能力。
2️⃣ 论文创新点
1. 专家-业余对比采样
- 创新点:利用强专家模型和弱业余模型在推理过程中的行为差异,通过KL散度识别关键推理时刻并构建监督示例
- 区别/改进:替代了传统均匀优化所有令牌的方法,仅关注高价值推理步骤
- 意义:大幅提升资源效率,减少了90%的时间消耗和99%的优化令牌使用
2. 无真实标签的推理增强
- 创新点:通过对比采样和蒸馏示例进行微调,无需依赖地面真实标签即可提升模型推理能力
- 区别/改进:避免了传统SFT对大规模标注数据和拒绝采样的依赖
- 意义:提供了一种可扩展且资源高效的LLM推理增强方法
3. 选择性轨迹优化
- 创新点:使用KL散度量化推理关键性,通过β过滤保留专家优势明显的推理步骤
- 区别/改进:防止学习信号被噪声令牌预测稀释,专注于最重要的推理步骤
- 意义:提高了微调效率,使模型专注于关键决策点
4. 对比分布监督
- 创新点:构建对比软目标来编码专家的相对优势,而非使用one-hot目标
- 区别/改进:保留了分布信息,通过专家-业余对比构建监督信号
- 意义:提供了更丰富的训练信号,强化专家类决策
3️⃣ 主要结果与价值
结果亮点
- 在七个数学基准上实现了高达28.1%的准确率提升
- 在Qwen2.5-Math-1.5B上,性能增益比SFT高4.1%,训练时间减少90%,优化令牌数减少99%
- 通过前缀终止实现采样效率,在生成128个token后停止而非完整推理轨迹
- 消融实验验证了步骤选择机制贡献3.0%性能提升,对比监督贡献9.2%性能提升
实际价值
- 摆脱了对真实标签的依赖,可扩展到确定性解决方案不可用的领域
- 实现了高性能与高效率的结合,大幅降低训练成本
- 适应不同模型能力,在非指令模型上提升显著,在优化过的指令模型上提升稳定
- 代码已开源,便于研究和应用
4️⃣ 术语表
- LightReasoner:一种利用专家模型与业余模型行为差异来提升大语言模型推理能力的框架,通过专家-业余对比识别关键推理步骤并进行针对性微调
- SFT:监督微调,一种通过在带标签数据上微调模型以提升性能的方法,但通常资源密集,需要大量标注数据和均匀优化所有令牌
- KL divergence:Kullback-Leibler散度,用于量化专家模型和业余模型在每个生成步骤的概率分布差异
- β-filtering:基于KL散度的过滤机制,只保留DKL(πE∥πA)>β的推理步骤
- Expert-Amateur contrast:专家-业余模型对比,基于领域专业知识差异而非参数规模差异
- GSM8K:用于生成监督样本的训练数据集,强调逐步逻辑推理而非领域特定符号
- 消融研究:通过逐步移除核心组件来评估各自贡献的实验方法