arXiv ID:
2603.03131
arXiv 提交日期: 2026-03-03
跨多激活稀疏性机制的联合训练 / Joint Training Across Multiple Activation Sparsity Regimes
1️⃣ 一句话总结
这篇论文提出了一种让神经网络在训练过程中,交替经历激活值稠密和稀疏状态的简单方法,初步实验表明这种方法能提升模型在未见过数据上的表现,可能为改善泛化能力提供一条新路径。