arXiv ID:
2606.05538
arXiv 提交日期: 2026-06-04
少即是专家:裁减领域专用语言模型中的专家模块 / Less is MoE: Trimming Experts in Domain-Specialist Language Models
1️⃣ 一句话总结
本文发现混合专家模型的关键能力集中在极少量中间维度上,提出用Fisher重要性指标精准定位并裁剪这些维度,在保留模型性能的同时,大幅压缩模型体积并提升推理速度。