🤖 系统
10-11 12:05
📄 论文总结
通过检查点回收实现高效模型增长:针对已收敛混合专家模型的正交增长方法 / Efficient Model Growth via Checkpoint Recycling: Orthogonal Growth Methods for Converged Mixture-of-Experts Models
1️⃣ 一句话总结
提出了一种通过扩展预训练检查点参数数量并继续训练来高效重用已投入计算成本(沉没成本)的方法,针对已收敛的混合专家模型设计了正交增长框架,在相同额外计算预算下比从头训练模型准确率提升10.66%。
2️⃣ 论文创新点
1. 检查点回收机制
- 创新点:通过扩展预训练检查点的参数数量并继续训练来重用沉没成本
- 区别/改进:避免了从头训练的高计算成本,继承了已训练模型的知识
- 意义:为经济高效的大语言模型预训练奠定了基础
2. 正交增长框架
- 创新点:针对已收敛MoE模型提出深度扩展(层间复制)和宽度扩展(专家复制加噪声)两种正交增长策略
- 区别/改进:专门为已充分训练的模型设计,不同于仅在训练初期增长的方法
- 意义:充分利用了沉没成本,在相同额外计算预算下获得更好性能
3. 插层层复制方法
- 创新点:提出interpositional插层层复制方法替代传统的stacking堆叠方法
- 区别/改进:更好地保留模型学习到的结构特性,如层间权重范数的特征趋势
- 意义:为已收敛模型的深度扩展提供了更优的技术路径
4. 专家噪声注入
- 创新点:对新复制的专家添加少量高斯噪声以促进专家专门化
- 区别/改进:相比直接复制专家,适度噪声注入能提升下游任务准确率约1%
- 意义:提升宽度扩展后模型的下游任务性能,同时避免破坏原有训练良好的专家
3️⃣ 主要结果与价值
结果亮点
- 最终准确率与沉没成本量呈强正相关,表明更大的初始训练投入能获得更好的最终模型
- 插层方法在平均下游任务准确率上优于堆叠方法,能保持模型的功能结构
- 宽度增长后即使不立即训练,下游任务准确率也只有轻微下降甚至略有提升,而深度增长在Post-LN架构中会导致显著性能下降
- 在固定总FLOPs预算下,模型增长策略表现相当或略优于从头训练
实际价值
- 将17B参数MoE模型扩展到70B,在相同额外FLOPs预算下比从头训练模型准确率提升10.66%
- 早期检查点开始增长效果最好,预训练的小模型为更大模型提供了有效的初始化
- 宽度增长符合函数保持变换原则,确保模型扩展后输出保持不变,为模型扩展提供了理论依据
- 方法具有可扩展性,验证了深度增长策略在大规模模型上的有效性
4️⃣ 术语表
- Mixture-of-Experts (MoE):混合专家架构,一种通过多个专家网络处理不同输入的大模型结构,训练时只激活子集
- 沉没成本:模型已有的预训练计算投入,研究发现与最终性能呈强正相关
- 正交增长:针对已收敛MoE模型的深度扩展和宽度扩展两种正交增长策略
- 插层增长:一种深度增长方法,通过原地复制每一层来扩展模型深度
- 堆叠增长:一种深度增长方法,通过顺序连接原始模型的所有层来扩展模型深度
- 函数保持变换:模型增长原则,要求对于任何给定输入,增长前后的模型输出应保持相同,以确保性能不受立即损害
- FLOPs:浮点运算次数,用于衡量计算预算和训练成本
- top-k:MoE模型中的路由参数,指定每个令牌被路由到的激活专家数量
- Pre-norm:现代transformer中广泛采用的结构,归一化在残差连接之前应用,更易于训练但可能降低模型有效深度
- Post-norm:传统transformer架构中的归一化方式,在残差连接后应用层归一化