arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.07962

🤖 系统

10-14 16:53

llm theory

reasoning enhancement contrastive learning knowledge distillation efficient fine-tuning expert-amateur model

📄 论文总结

LightReasoner：基于专家-业余模型对比的大语言模型推理增强框架 / LightReasoner: Enhancing LLM Reasoning through Expert-Amateur Model Contrast

1️⃣ 一句话总结

LightReasoner是一个通过对比专家模型与业余模型的行为差异来自动识别关键推理步骤并进行针对性微调的高效框架，无需真实标签即可显著提升大语言模型的推理能力。

2️⃣ 论文创新点

1. 专家-业余对比采样

创新点：利用强专家模型和弱业余模型在推理过程中的行为差异，通过KL散度识别关键推理时刻并构建监督示例
区别/改进：替代了传统均匀优化所有令牌的方法，仅关注高价值推理步骤
意义：大幅提升资源效率，减少了90%的时间消耗和99%的优化令牌使用

2. 无真实标签的推理增强

创新点：通过对比采样和蒸馏示例进行微调，无需依赖地面真实标签即可提升模型推理能力
区别/改进：避免了传统SFT对大规模标注数据和拒绝采样的依赖
意义：提供了一种可扩展且资源高效的LLM推理增强方法

3. 选择性轨迹优化

创新点：使用KL散度量化推理关键性，通过β过滤保留专家优势明显的推理步骤
区别/改进：防止学习信号被噪声令牌预测稀释，专注于最重要的推理步骤
意义：提高了微调效率，使模型专注于关键决策点

4. 对比分布监督

创新点：构建对比软目标来编码专家的相对优势，而非使用one-hot目标
区别/改进：保留了分布信息，通过专家-业余对比构建监督信号
意义：提供了更丰富的训练信号，强化专家类决策

3️⃣ 主要结果与价值

结果亮点

在七个数学基准上实现了高达28.1%的准确率提升
在Qwen2.5-Math-1.5B上，性能增益比SFT高4.1%，训练时间减少90%，优化令牌数减少99%
通过前缀终止实现采样效率，在生成128个token后停止而非完整推理轨迹
消融实验验证了步骤选择机制贡献3.0%性能提升，对比监督贡献9.2%性能提升

实际价值

摆脱了对真实标签的依赖，可扩展到确定性解决方案不可用的领域
实现了高性能与高效率的结合，大幅降低训练成本
适应不同模型能力，在非指令模型上提升显著，在优化过的指令模型上提升稳定
代码已开源，便于研究和应用

4️⃣ 术语表

LightReasoner：一种利用专家模型与业余模型行为差异来提升大语言模型推理能力的框架，通过专家-业余对比识别关键推理步骤并进行针对性微调
SFT：监督微调，一种通过在带标签数据上微调模型以提升性能的方法，但通常资源密集，需要大量标注数据和均匀优化所有令牌
KL divergence：Kullback-Leibler散度，用于量化专家模型和业余模型在每个生成步骤的概率分布差异
β-filtering：基于KL散度的过滤机制，只保留DKL(πE∥πA)>β的推理步骤
Expert-Amateur contrast：专家-业余模型对比，基于领域专业知识差异而非参数规模差异
GSM8K：用于生成监督样本的训练数据集，强调逐步逻辑推理而非领域特定符号
消融研究：通过逐步移除核心组件来评估各自贡献的实验方法

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2509.20186

🤖 系统

09-28 15:45

llm

data efficiency thinking trajectories reasoning enhancement pre-training optimization dynamic computation allocation

📄 论文总结

思考增强预训练：通过思维轨迹增强提升语言模型数据效率

Thinking Augmented Pre-training: Enhancing Language Model Data Efficiency via Thinking Trajectories

1️⃣ 一句话总结

本文提出思考增强预训练(TPT)方法，通过为现有文本数据自动生成思维轨迹来显著提升大型语言模型的预训练数据效率，在数学推理、代码生成和通用知识任务上实现3倍数据效率提升。

2️⃣ 论文创新点

1. 思考增强预训练(TPT)

创新点是什么：通过使用开源LLM为现有文本数据自动生成思维轨迹，模拟专家深入思考过程，将原始文档与思维轨迹拼接形成增强训练样本
与已有方法的区别/改进：将复杂推理过程分解为更小、更易学习的步骤，解决了单步预测难以学习复杂推理过程的问题
为什么有意义：将预训练数据效率提升3倍，在3B参数模型上使推理基准性能提升超10%

2. 动态训练计算分配

创新点是什么：根据原始文本的领域、难度和推理强度动态分配训练计算资源
与已有方法的区别/改进：对困难样本分配更多训练计算，类似测试时扩展但应用于训练阶段
为什么有意义：自然上采样高质量数据，提升模型对挑战性样本的学习能力

3. 中期训练增强策略

创新点是什么：在中期训练阶段引入思维增强数据，对现有LLMs进行持续预训练以提升能力
与已有方法的区别/改进：避免了从头训练模型的高成本，通过精选数据集进一步提升模型性能
为什么有意义：提供成本效益高的模型能力增强策略，在多个基准测试中显示显著性能提升

3️⃣ 主要结果与价值

实验结果亮点

TPT-8B模型在100B token训练中，仅用1/150的数据量就达到与LLaMA-3.1-8B相当的性能
在数据受限(10B原始文档token)实验中，TPT模型在训练后期持续改进，而普通模型性能趋于平稳
在Qwen2.5和LLaMA-3两个模型家族的三个开源模型上验证，在数学推理、代码生成和通用知识推理等多个基准测试上均显著优于基线模型
使用更小的1.5B模型进行思维生成优于默认的7B模型，挑战了模型越大性能越好的传统认知

实际应用价值

大幅提高数据效率，用更少数据达到与大模型相当的性能
为解决高质量网络数据枯竭问题提供了有效方案
为后续微调阶段创造更强的基础，避免从头训练的高成本
适用于不同训练阶段，包括从头预训练、中期训练和后训练

4️⃣ 术语表

TPT：思考增强预训练，通过思维轨迹增强提升预训练数据效率的方法
LLM：大型语言模型
思维轨迹：使用现成LLM生成的模拟专家思考过程的文本序列
中期训练：也称为持续预训练，通过在精选数据集上进一步训练现有LLMs来增强其能力
back-thinking model：使用SFT数据集微调的模型，用于在标签内生成思维内容
CoT：思维链推理方法
Essential-web v1.0：包含24万亿标记的组织化网络数据集

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.07962

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 专家-业余对比采样

2. 无真实标签的推理增强

3. 选择性轨迹优化

4. 对比分布监督

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2509.20186

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 思考增强预训练(TPT)

2. 动态训练计算分配

3. 中期训练增强策略

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.07962 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 专家-业余对比采样

2. 无真实标签的推理增强

3. 选择性轨迹优化

4. 对比分布监督

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2509.20186 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 思考增强预训练(TPT)

2. 动态训练计算分配

3. 中期训练增强策略

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2510.07962

2509.20186