arXiv ID:
2606.12966
arXiv 提交日期: 2026-06-11
电路同步先于泛化:来自Grokking Transformer中傅里叶结构的因果证据 / Circuit Synchronization Precedes Generalization: Causal Evidence from Fourier Structure in Grokking Transformers
1️⃣ 一句话总结
本文发现,在训练过程中,Transformer模型内部负责计算的“傅里叶电路”各组件的同步化(用新指标FSD衡量)会先于模型整体泛化能力突然提升(即Grokking现象)数百至数千步发生,并且通过控制权重衰减可以精准预测和操控这一时间差,从而揭示了泛化飞跃的早期电路级前兆及其正则化驱动机制。