arXiv ID:
2603.21862
arXiv 提交日期: 2026-03-23
面向最优专家混合架构优化的整体性缩放定律 / Holistic Scaling Laws for Optimal Mixture-of-Experts Architecture Optimization
1️⃣ 一句话总结
这篇论文提出了一个全新的框架,通过同时考虑计算量、激活参数和总参数三个关键约束,解决了在庞大设计空间中为专家混合模型寻找最优架构的难题,为不同计算预算提供了完整且可灵活调整的架构配置方案。