🤖 系统
11-30 17:37
📄 论文总结
循环利用预训练检查点:通过混合专家模型的正交增长实现高效大语言模型预训练 / Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
1️⃣ 一句话总结
这篇论文提出了一种通过扩展已有预训练模型的参数规模来高效复用计算资源的方法,在混合专家模型上实现了深度和宽度的正交增长,相比从头训练在相同计算预算下能显著提升模型性能。