arXiv ID:
2508.18672
混合专家语言模型在推理任务中的最优稀疏性 / Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
1️⃣ 一句话总结
这项研究发现,混合专家模型在推理任务中的性能不仅取决于训练损失,更关键的是激活计算量和每个参数处理的数据量,推理能力需要大量数据支持,而记忆任务则受益于更多参数。