arXiv ID:
2602.05779
arXiv 提交日期: 2026-02-05
如何通过控制方差来提升稀疏激活深度神经网络和卷积神经网络的训练稳定性 / How Controlling the Variance can Improve Training Stability of Sparsely Activated DNNs and CNNs
1️⃣ 一句话总结
这篇论文发现,在初始化深度神经网络时,通过设置一个较大的高斯过程方差,可以显著提升使用稀疏激活函数(如CReLU)的模型的训练稳定性,并能在隐藏层激活稀疏度高达90%的情况下保持模型性能,为降低机器学习模型的能耗提供了新思路。