arXiv ID:
2603.25009
arXiv 提交日期: 2026-03-26
关于神经网络“顿悟”现象的系统性实证研究:深度、架构、激活函数与正则化 / A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization
1️⃣ 一句话总结
这篇论文通过一系列精心控制的实验发现,神经网络训练中出现的‘顿悟’现象(即模型从死记硬背突然转变为真正理解规律)主要不是由网络架构决定的,而是由优化过程的稳定性和正则化强度之间的微妙互动共同主导的。