arXiv最新AI论文速览速学

🔍

标签: #gradient descent ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Attractor FCM 05-01

arXiv ID: 2604.27947

arXiv 提交日期: 2026-04-30

machine learning model training fuzzy cognitive maps gradient descent fixed point attractor backpropagation through time physics constrained learning

吸引子模糊认知图 / Attractor FCM

1️⃣ 一句话总结

本文提出了一种基于梯度下降和物理约束的新型模糊认知图模型——吸引子FCM，通过引入残差记忆、时间反向传播和不动点锚定机制，结合牛顿法与自适应梯度下降算法，在尊重专家先验知识的同时，高效地将系统误差降至目标值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05923

arXiv 提交日期: 2026-04-07

theory model evaluation systems state space models expressivity benchmark gradient descent semantic state

UNDO触发器：状态空间模型中可逆语义状态管理的受控探针 / The UNDO Flip-Flop: A Controlled Probe for Reversible Semantic State Management in State Space Model

1️⃣ 一句话总结

这篇论文通过设计一个需要模型记住并撤销历史状态的新任务，发现即使理论上能学会，像Mamba-2这样的状态空间模型在实际训练中也无法可靠地掌握可逆状态管理，而是依赖简单的局部策略，揭示了模型理论表达能力与实际学习能力之间的关键差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15923

arXiv 提交日期: 2026-03-16

llm theory model training transformers memory retrieval gradient descent theoretical analysis capacity scaling

超越正交嵌入：基于Transformer的记忆学习研究 / Learning to Recall with Transformers Beyond Orthogonal Embeddings

1️⃣ 一句话总结

这篇论文通过分析在非正交随机嵌入下训练的简单Transformer模型，揭示了其记忆能力（即存储和检索信息的能力）取决于样本数量、嵌入维度和序列长度三者的乘积关系，并证明这种关系是此类模型在现实有限数据场景下的固有特性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04948

arXiv 提交日期: 2026-03-05

llm model training theory reasoning gradient descent test-time optimization differentiable optimization inference scaling

∇-Reasoner：通过潜在空间中的测试时梯度下降实现大语言模型推理 / $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

1️⃣ 一句话总结

这篇论文提出了一种名为∇-Reasoner的新方法，它通过在大语言模型生成文本时实时引入梯度优化来调整策略，从而在显著提升复杂数学推理准确率的同时，减少了模型调用次数，为增强AI推理能力提供了一种更高效的新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04807

arXiv 提交日期: 2026-03-05

theory model training machine learning implicit regularization convolutional neural networks inductive bias generalization gradient descent

卷积神经网络的归纳偏置：局部性与权重共享重塑隐式正则化 / The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

1️⃣ 一句话总结

这篇论文通过理论证明和实验分析，揭示了卷积神经网络（CNN）中的局部连接和权重共享结构能够有效克服全连接网络在复杂数据（如高维球面数据）上的过拟合问题，从而系统性地解释了CNN为何比全连接网络具有更优越的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15473

arXiv 提交日期: 2026-02-17

machine learning model training theory optimization meta-learning hyperparameter tuning gradient descent non-convex optimization

POP：基于先验拟合的优化器策略 / POP: Prior-fitted Optimizer Policies

1️⃣ 一句话总结

这篇论文提出了一种名为POP的元学习优化器，它通过从大量合成优化问题中学习，能够自动预测每一步的调整步长，从而在各种复杂函数优化任务中，无需手动调参就显著超越了传统梯度方法和其他先进优化算法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15799

arXiv 提交日期: 2026-02-17

llm model training theory alignment collapse safety degradation fine-tuning geometric analysis gradient descent

对齐崩溃的几何学：当微调破坏安全性时 / The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety

1️⃣ 一句话总结

这篇论文发现，即使使用无害数据对已对齐的大语言模型进行微调，也会因为模型参数空间中安全对齐结构固有的几何脆弱性，导致安全护栏在训练过程中被系统地、不可预测地破坏，其根本原因在于梯度下降无法感知和避开高曲率的低维敏感子空间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08302

arXiv 提交日期: 2026-02-09

theory machine learning model training grokking linear models logistic regression gradient descent implicit bias

逻辑回归线性模型中的顿悟现象研究 / Grokking in Linear Models for Logistic Regression

1️⃣ 一句话总结

这篇论文发现，即使是最简单的线性逻辑回归模型，在特定测试数据（如集中于分类边界附近或对抗性数据）下也会出现‘顿悟’现象，即模型在训练后期才突然学会泛化，并揭示这种现象源于梯度下降的内在偏好和数据分布的不对称性，而非深度神经网络所独有。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07909

arXiv 提交日期: 2026-02-08

llm model evaluation benchmark efficient evaluation sparse optimization anchor selection gradient descent performance estimation

SparseEval：通过稀疏优化高效评估大语言模型 / SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为SparseEval的新方法，通过将大语言模型评估问题转化为一个稀疏优化问题，并利用梯度下降和迭代策略来智能选取少量代表性测试样本，从而在保证评估准确性的同时，大幅降低了评估所需的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22409

arXiv 提交日期: 2026-01-29

theory machine learning model training kolmogorov-arnold networks gradient descent differential privacy generalization bounds optimization theory

梯度下降训练Kolmogorov-Arnold网络的优化、泛化与差分隐私界分析 / Optimization, Generalization and Differential Privacy Bounds for Gradient Descent on Kolmogorov-Arnold Networks

1️⃣ 一句话总结

这篇论文首次系统分析了梯度下降训练两层Kolmogorov-Arnold网络（KANs）的理论性能，证明了在极窄的网络宽度下就能实现高效优化和泛化，并揭示了差分隐私训练会迫使网络必须保持窄宽度，而非隐私训练则无此限制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27947

1️⃣ 一句话总结

arXiv ID: 2604.05923

1️⃣ 一句话总结

arXiv ID: 2603.15923

1️⃣ 一句话总结

arXiv ID: 2603.04948

1️⃣ 一句话总结

arXiv ID: 2603.04807

1️⃣ 一句话总结

arXiv ID: 2602.15473

1️⃣ 一句话总结

arXiv ID: 2602.15799

1️⃣ 一句话总结

arXiv ID: 2602.08302

1️⃣ 一句话总结

arXiv ID: 2602.07909

1️⃣ 一句话总结

arXiv ID: 2601.22409

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27947 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05923 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15923 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04948 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04807 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15473 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15799 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08302 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22409 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27947

arXiv ID: 2604.05923

arXiv ID: 2603.15923

arXiv ID: 2603.04948

arXiv ID: 2603.04807

arXiv ID: 2602.15473

arXiv ID: 2602.15799

arXiv ID: 2602.08302

arXiv ID: 2602.07909

arXiv ID: 2601.22409