📄 论文总结
思考增强预训练:通过思维轨迹增强提升语言模型数据效率
Thinking Augmented Pre-training: Enhancing Language Model Data Efficiency via Thinking Trajectories
1️⃣ 一句话总结
本文提出思考增强预训练(TPT)方法,通过为现有文本数据自动生成思维轨迹来显著提升大型语言模型的预训练数据效率,在数学推理、代码生成和通用知识任务上实现3倍数据效率提升。
2️⃣ 论文创新点
1. 思考增强预训练(TPT)
- 创新点是什么:通过使用开源LLM为现有文本数据自动生成思维轨迹,模拟专家深入思考过程,将原始文档与思维轨迹拼接形成增强训练样本
- 与已有方法的区别/改进:将复杂推理过程分解为更小、更易学习的步骤,解决了单步预测难以学习复杂推理过程的问题
- 为什么有意义:将预训练数据效率提升3倍,在3B参数模型上使推理基准性能提升超10%
2. 动态训练计算分配
- 创新点是什么:根据原始文本的领域、难度和推理强度动态分配训练计算资源
- 与已有方法的区别/改进:对困难样本分配更多训练计算,类似测试时扩展但应用于训练阶段
- 为什么有意义:自然上采样高质量数据,提升模型对挑战性样本的学习能力
3. 中期训练增强策略
- 创新点是什么:在中期训练阶段引入思维增强数据,对现有LLMs进行持续预训练以提升能力
- 与已有方法的区别/改进:避免了从头训练模型的高成本,通过精选数据集进一步提升模型性能
- 为什么有意义:提供成本效益高的模型能力增强策略,在多个基准测试中显示显著性能提升
3️⃣ 主要结果与价值
实验结果亮点
- TPT-8B模型在100B token训练中,仅用1/150的数据量就达到与LLaMA-3.1-8B相当的性能
- 在数据受限(10B原始文档token)实验中,TPT模型在训练后期持续改进,而普通模型性能趋于平稳
- 在Qwen2.5和LLaMA-3两个模型家族的三个开源模型上验证,在数学推理、代码生成和通用知识推理等多个基准测试上均显著优于基线模型
- 使用更小的1.5B模型进行思维生成优于默认的7B模型,挑战了模型越大性能越好的传统认知
实际应用价值
- 大幅提高数据效率,用更少数据达到与大模型相当的性能
- 为解决高质量网络数据枯竭问题提供了有效方案
- 为后续微调阶段创造更强的基础,避免从头训练的高成本
- 适用于不同训练阶段,包括从头预训练、中期训练和后训练
4️⃣ 术语表
- TPT:思考增强预训练,通过思维轨迹增强提升预训练数据效率的方法
- LLM:大型语言模型
- 思维轨迹:使用现成LLM生成的模拟专家思考过程的文本序列
- 中期训练:也称为持续预训练,通过在精选数据集上进一步训练现有LLMs来增强其能力
- back-thinking model:使用SFT数据集微调的模型,用于在
标签内生成思维内容 - CoT:思维链推理方法
- Essential-web v1.0:包含24万亿标记的组织化网络数据集