arXiv ID:
2512.23447
arXiv 提交日期: 2025-12-29
专家-路由器耦合损失:增强混合专家模型中的路由与专家对齐 / Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss
1️⃣ 一句话总结
本文提出了一种名为专家-路由器耦合损失(ERC损失)的新型轻量级辅助损失函数,通过约束代理令牌的激活范数矩阵,有效解决了传统MoE模型中路由器决策与专家能力之间缺乏显式约束的问题,从而以可忽略的开销显著提升了模型性能。