arXiv ID:
2601.17111
最小负载专家并行:一种针对不平衡专家混合模型的负载均衡方法 / Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts
1️⃣ 一句话总结
本文提出了一种名为‘最小负载专家并行’的新算法,它通过动态地将过载设备上的计算任务和参数转移到空闲设备上,有效解决了专家混合模型在推理时因任务分配不均导致的设备性能瓶颈问题,从而大幅提升了模型运行速度和内存使用效率。