arXiv最新AI论文速览速学

🔍

标签: #weight decay ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Circuit Synchronization Precedes Generalization: Causal Evidence from Fourier Structure in Grokking Transformers 06-12

arXiv ID: 2606.12966

arXiv 提交日期: 2026-06-11

machine learning llm theory grokking fourier circuit synchronization weight decay causal analysis

电路同步先于泛化：来自Grokking Transformer中傅里叶结构的因果证据 / Circuit Synchronization Precedes Generalization: Causal Evidence from Fourier Structure in Grokking Transformers

1️⃣ 一句话总结

本文发现，在训练过程中，Transformer模型内部负责计算的“傅里叶电路”各组件的同步化（用新指标FSD衡量）会先于模型整体泛化能力突然提升（即Grokking现象）数百至数千步发生，并且通过控制权重衰减可以精准预测和操控这一时间差，从而揭示了泛化飞跃的早期电路级前兆及其正则化驱动机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10797

arXiv 提交日期: 2026-05-11

llm model training machine learning optimization weight decay spectral norm muon optimizer language model pre-training

Muown：用于缪子优化的行范数控制 / Muown: Row-Norm Control for Muon Optimization

1️⃣ 一句话总结

本文提出了一种名为Muown的新优化器，它通过将权重矩阵的行范数作为独立变量进行显式控制，解决了Muon优化器在大规模语言模型训练中遇到的谱范数漂移问题，在多个模型规模下均取得了比Muon、AdamW等优化器更好的性能，且对超参数（如学习率和权重衰减）的敏感性更低。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04890

arXiv 提交日期: 2026-01-08

model training llm theory weight decay learnable multipliers optimization parameter scaling language model pretraining

可学习的乘数：释放语言模型矩阵层的尺度 / Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

1️⃣ 一句话总结

这篇论文提出了一种为语言模型的矩阵层引入可学习乘数的新方法，通过自动优化权重尺度来替代传统权重衰减导致的次优平衡，从而在不同优化器下都提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12966

1️⃣ 一句话总结

arXiv ID: 2605.10797

1️⃣ 一句话总结

arXiv ID: 2601.04890

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12966 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10797 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04890 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12966

arXiv ID: 2605.10797

arXiv ID: 2601.04890