arXiv ID:
2603.24984
arXiv 提交日期: 2026-03-26
MoE-GRPO:通过强化学习优化视觉语言模型中的专家混合机制 / MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为MoE-GRPO的新方法,它利用强化学习来动态优化视觉语言模型中‘专家混合’模块的决策过程,从而让模型能更灵活、更有效地选择和使用不同的‘专家’子网络来处理多模态任务,最终提升了模型性能并防止了‘专家’的过度依赖。