arXiv ID:
2604.27947
吸引子模糊认知图 / Attractor FCM
1️⃣ 一句话总结
本文提出了一种基于梯度下降和物理约束的新型模糊认知图模型——吸引子FCM,通过引入残差记忆、时间反向传播和不动点锚定机制,结合牛顿法与自适应梯度下降算法,在尊重专家先验知识的同时,高效地将系统误差降至目标值。
吸引子模糊认知图 / Attractor FCM
本文提出了一种基于梯度下降和物理约束的新型模糊认知图模型——吸引子FCM,通过引入残差记忆、时间反向传播和不动点锚定机制,结合牛顿法与自适应梯度下降算法,在尊重专家先验知识的同时,高效地将系统误差降至目标值。
UNDO触发器:状态空间模型中可逆语义状态管理的受控探针 / The UNDO Flip-Flop: A Controlled Probe for Reversible Semantic State Management in State Space Model
这篇论文通过设计一个需要模型记住并撤销历史状态的新任务,发现即使理论上能学会,像Mamba-2这样的状态空间模型在实际训练中也无法可靠地掌握可逆状态管理,而是依赖简单的局部策略,揭示了模型理论表达能力与实际学习能力之间的关键差距。
超越正交嵌入:基于Transformer的记忆学习研究 / Learning to Recall with Transformers Beyond Orthogonal Embeddings
这篇论文通过分析在非正交随机嵌入下训练的简单Transformer模型,揭示了其记忆能力(即存储和检索信息的能力)取决于样本数量、嵌入维度和序列长度三者的乘积关系,并证明这种关系是此类模型在现实有限数据场景下的固有特性。
∇-Reasoner:通过潜在空间中的测试时梯度下降实现大语言模型推理 / $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space
这篇论文提出了一种名为∇-Reasoner的新方法,它通过在大语言模型生成文本时实时引入梯度优化来调整策略,从而在显著提升复杂数学推理准确率的同时,减少了模型调用次数,为增强AI推理能力提供了一种更高效的新思路。
卷积神经网络的归纳偏置:局部性与权重共享重塑隐式正则化 / The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization
这篇论文通过理论证明和实验分析,揭示了卷积神经网络(CNN)中的局部连接和权重共享结构能够有效克服全连接网络在复杂数据(如高维球面数据)上的过拟合问题,从而系统性地解释了CNN为何比全连接网络具有更优越的泛化能力。
POP:基于先验拟合的优化器策略 / POP: Prior-fitted Optimizer Policies
这篇论文提出了一种名为POP的元学习优化器,它通过从大量合成优化问题中学习,能够自动预测每一步的调整步长,从而在各种复杂函数优化任务中,无需手动调参就显著超越了传统梯度方法和其他先进优化算法。
对齐崩溃的几何学:当微调破坏安全性时 / The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety
这篇论文发现,即使使用无害数据对已对齐的大语言模型进行微调,也会因为模型参数空间中安全对齐结构固有的几何脆弱性,导致安全护栏在训练过程中被系统地、不可预测地破坏,其根本原因在于梯度下降无法感知和避开高曲率的低维敏感子空间。
逻辑回归线性模型中的顿悟现象研究 / Grokking in Linear Models for Logistic Regression
这篇论文发现,即使是最简单的线性逻辑回归模型,在特定测试数据(如集中于分类边界附近或对抗性数据)下也会出现‘顿悟’现象,即模型在训练后期才突然学会泛化,并揭示这种现象源于梯度下降的内在偏好和数据分布的不对称性,而非深度神经网络所独有。
SparseEval:通过稀疏优化高效评估大语言模型 / SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization
这篇论文提出了一种名为SparseEval的新方法,通过将大语言模型评估问题转化为一个稀疏优化问题,并利用梯度下降和迭代策略来智能选取少量代表性测试样本,从而在保证评估准确性的同时,大幅降低了评估所需的计算成本。
梯度下降训练Kolmogorov-Arnold网络的优化、泛化与差分隐私界分析 / Optimization, Generalization and Differential Privacy Bounds for Gradient Descent on Kolmogorov-Arnold Networks
这篇论文首次系统分析了梯度下降训练两层Kolmogorov-Arnold网络(KANs)的理论性能,证明了在极窄的网络宽度下就能实现高效优化和泛化,并揭示了差分隐私训练会迫使网络必须保持窄宽度,而非隐私训练则无此限制。
请先 登录 后再提交论文