arXiv ID:
2605.28306
arXiv 提交日期: 2026-05-27
面向混合专家模型多语言下游任务的路由对齐微调方法 / Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models
1️⃣ 一句话总结
本文提出了一种名为RA-MoE的三阶段微调方法,通过在混合专家模型的中间层中识别与任务相关的专家,并引导目标语言在错误案例上模仿英语的正确专家激活模式,从而有效提升模型在非英语语言上的任务性能。