arXiv ID:
2605.13247
arXiv 提交日期: 2026-05-13
EMO:令人惊讶地简单的渐进式可扩展混合专家模型训练方法 / EMO: Frustratingly Easy Progressive Training of Extendable MoE
1️⃣ 一句话总结
本文提出了一种简单有效的渐进式训练框架EMO,通过随着训练过程逐步增加专家数量,而不是一开始就使用全部专家,从而在保持模型性能的同时显著降低了混合专家模型的训练时间和GPU成本。