arXiv最新AI论文速览速学

🔍

标签: #grokking ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 54 72小时内新更新论文 72h更新 54 最新: Circuit Synchronization Precedes Generalization: Causal Evidence from Fourier Structure in Grokking Transformers 06-12

arXiv ID: 2606.12966

arXiv 提交日期: 2026-06-11

machine learning llm theory grokking fourier circuit synchronization weight decay causal analysis

电路同步先于泛化：来自Grokking Transformer中傅里叶结构的因果证据 / Circuit Synchronization Precedes Generalization: Causal Evidence from Fourier Structure in Grokking Transformers

1️⃣ 一句话总结

本文发现，在训练过程中，Transformer模型内部负责计算的“傅里叶电路”各组件的同步化（用新指标FSD衡量）会先于模型整体泛化能力突然提升（即Grokking现象）数百至数千步发生，并且通过控制权重衰减可以精准预测和操控这一时间差，从而揭示了泛化飞跃的早期电路级前兆及其正则化驱动机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28964

arXiv 提交日期: 2026-03-30

theory model training machine learning spectral analysis phase transitions training dynamics neural network theory grokking

谱边缘假说：神经网络训练中信号内相变的数学框架 / The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training

1️⃣ 一句话总结

这篇论文提出了一个名为‘谱边缘假说’的理论，认为神经网络训练过程中出现的‘顿悟’、能力突增或损失停滞等关键转折点，是由参数更新矩阵的‘谱间隙’（即主要学习模式与次要模式之间的差距）动态变化所控制的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25009

arXiv 提交日期: 2026-03-26

theory model training machine learning grokking generalization optimization regularization neural networks

关于神经网络“顿悟”现象的系统性实证研究：深度、架构、激活函数与正则化 / A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization

1️⃣ 一句话总结

这篇论文通过一系列精心控制的实验发现，神经网络训练中出现的‘顿悟’现象（即模型从死记硬背突然转变为真正理解规律）主要不是由网络架构决定的，而是由优化过程的稳定性和正则化强度之间的微妙互动共同主导的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19533

arXiv 提交日期: 2026-02-23

theory machine learning model training grokking algebraic structures generalization dynamics neural networks structure tensor

理解有限维代数中的顿悟现象 / Grokking Finite-Dimensional Algebra

1️⃣ 一句话总结

这篇论文将神经网络训练中突然从记忆转向理解的‘顿悟’现象，从学习群运算推广到更广泛的有限维代数结构，揭示了代数性质（如交换律、结合律）和代数结构张量的特性如何影响顿悟的出现时机与泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08302

arXiv 提交日期: 2026-02-09

theory machine learning model training grokking linear models logistic regression gradient descent implicit bias

逻辑回归线性模型中的顿悟现象研究 / Grokking in Linear Models for Logistic Regression

1️⃣ 一句话总结

这篇论文发现，即使是最简单的线性逻辑回归模型，在特定测试数据（如集中于分类边界附近或对抗性数据）下也会出现‘顿悟’现象，即模型在训练后期才突然学会泛化，并揭示这种现象源于梯度下降的内在偏好和数据分布的不对称性，而非深度神经网络所独有。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12966

1️⃣ 一句话总结

arXiv ID: 2603.28964

1️⃣ 一句话总结

arXiv ID: 2603.25009

1️⃣ 一句话总结

arXiv ID: 2602.19533

1️⃣ 一句话总结

arXiv ID: 2602.08302

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12966 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28964 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25009 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08302 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12966

arXiv ID: 2603.28964

arXiv ID: 2603.25009

arXiv ID: 2602.19533

arXiv ID: 2602.08302