← 返回列表

菜单

🤖 系统
📄 Abstract - Efficient Model Growth via Checkpoint Recycling: Orthogonal Growth Methods for Converged Mixture-of-Experts Models
正在获取摘要...
顶级标签: systems
详细标签: mixture-of-experts model scaling parameter expansion checkpoint reuse efficient training 或 搜索:

📄 论文总结

通过检查点回收实现高效模型增长:针对已收敛混合专家模型的正交增长方法 / Efficient Model Growth via Checkpoint Recycling: Orthogonal Growth Methods for Converged Mixture-of-Experts Models


1️⃣ 一句话总结

提出了一种通过扩展预训练检查点参数数量并继续训练来高效重用已投入计算成本(沉没成本)的方法,针对已收敛的混合专家模型设计了正交增长框架,在相同额外计算预算下比从头训练模型准确率提升10.66%。


2️⃣ 论文创新点

1. 检查点回收机制

2. 正交增长框架

3. 插层层复制方法

4. 专家噪声注入


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF