2508.18672 – Summary

📄 论文总结

混合专家语言模型在推理任务中的最优稀疏性研究

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

本研究系统分析了MoE模型稀疏性对记忆与推理任务的不同影响，发现在固定计算预算下，不同任务类型需要不同的最优稀疏配置，推理任务存在参数过载现象，突破了传统缩放定律的预测。

在固定FLOPs预算下，记忆型任务（TriviaQA、HellaSwag）性能随稀疏性增加单调提升，而推理型任务（GSM8K、GSM-Plus）呈现U型趋势，存在最优参数规模
学习率和初始化等经典超参数与稀疏性以相同方向调节泛化差距，训练后强化学习或额外测试时计算无法弥补过度稀疏模型的推理缺陷
数学推理任务对学习率敏感，较低学习率在相同训练损失下获得更好准确率，而QA任务对此不敏感

Mixture-of-Experts (MoE)：通过稀疏路由机制将输入令牌分配给专家子网络的架构范式，可在固定FLOPs下实现高模型容量
Sparsity：在MoE模型中定义为1 - (激活专家数/总专家数)，衡量非激活参数的比例，是调节模型计算和性能的关键指标
top-k routing：MoE模型中的路由策略，每个令牌只通过前k个最相关的专家进行处理，控制模型激活稀疏度
IsoFLOP：固定计算预算下的模型性能分析，保持每token FLOP计数不变的情况下比较不同稀疏配置
Test-Time Compute (TTC)：测试时计算，指在推理阶段增加计算（如更长思维链、更大候选池或搜索验证步骤）以提升模型性能的方法
self-consistency：一种TTC方法，通过重复采样并多数投票聚合结果来提升推理准确性
tokens per parameter (TPP)：每个参数对应的训练token数量，是计算预算下模型参数与训练数据量的权衡指标，Chinchilla缩放定律指出密集模型的优化TPP约为20