arXiv ID:
2603.10379
混合专家模型中专家与注意力模块的最优计算分配:动态模型设计的可扩展法则 / Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design
1️⃣ 一句话总结
这篇论文为混合专家模型找到了一个明确的数学公式,可以像调节配方一样,根据总计算量和模型稀疏度,自动确定分配给专家模块和注意力模块的最优计算比例,从而在固定计算预算下设计出性能最好的模型。