arXiv最新AI论文速览速学

🔍

标签: #stochastic gradient descent ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 43 72小时内新更新论文 72h更新 136 最新: Non-asymptotic Convergence of Stochastic Gradient Descent in Score-based Generative Models 07-11

arXiv ID: 2607.04775

arXiv 提交日期: 2026-07-06

machine learning theory stochastic gradient descent score-based generative models non-convex optimization neural tangent kernel convergence analysis

基于分数的生成模型中随机梯度下降的非渐近收敛性分析 / Non-asymptotic Convergence of Stochastic Gradient Descent in Score-based Generative Models

1️⃣ 一句话总结

该论文首次从理论上证明了在基于分数的生成模型中，使用随机梯度下降（SGD）训练去噪分数匹配目标时，即使目标函数非凸，SGD也能以可控的速率收敛，并且揭示了训练过程中权重因子对最终模型精度的影响规律，为实践中如何选择权重提供了理论依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19641

arXiv 提交日期: 2026-05-19

machine learning theory missing data stochastic gradient descent debiasing richardson extrapolation

增加缺失以减少偏差：面向缺失数据的Richardson随机梯度下降法 / Increasing Missingness to Reduce Bias: Richardson-SGD with Missing Data

1️⃣ 一句话总结

本文提出了一种反直觉的缺失数据处理方法——通过人为制造更多缺失值，利用Richardson外推技术消除随机梯度下降中的梯度偏差，从而显著提升含缺失数据场景下参数模型的优化精度和估计效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20009

arXiv 提交日期: 2026-05-19

machine learning model training bayesian learning learning rate stochastic gradient descent hyperparameters neural network training

基于最优双贝叶斯学习的神经网络训练方法 / Training Neural Networks with Optimal Double-Bayesian Learning

1️⃣ 一句话总结

本文提出了一种新颖的双贝叶斯概率框架，通过将经典贝叶斯统计扩展为两个对抗的决策过程，从而能自动推导出随机梯度下降中理论上最优的学习率，避免了传统依赖经验调参的局限，并在分类、分割和检测等多种任务中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18609

arXiv 提交日期: 2026-05-18

machine learning theory stochastic gradient descent momentum acceleration mini-batch optimization parallelization

小批量随机梯度下降中经典动量加速的完美并行化 / Perfect Parallelization in Mini-Batch SGD with Classical Momentum Acceleration

1️⃣ 一句话总结

本文提出了一种通用理论，证明经典动量（如Polyak重球和Nesterov动量）在二次型优化问题中的加速效果与小批量梯度的大小成正比，从而实现了小批量计算中的完美并行化，并给出了一种简单有效的动量参数选择方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22936

arXiv 提交日期: 2026-02-26

theory machine learning model training generalization bounds stochastic gradient descent homogeneous neural networks algorithmic stability non-convex optimization

齐次神经网络中随机梯度下降的泛化界 / Generalization Bounds of Stochastic Gradient Descent in Homogeneous Neural Networks

1️⃣ 一句话总结

这篇论文证明了，在齐次神经网络（如使用ReLU激活的常见网络）中，随机梯度下降算法可以使用更慢的学习率衰减（如1/√t），而无需牺牲泛化性能，这比传统理论要求的更符合实际训练情况。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21276

arXiv 提交日期: 2026-02-24

model training theory machine learning optimization loss landscape stochastic gradient descent quasi-newton generalization

神经网络优化策略与损失函数地形 / Neural network optimization strategies and the topography of the loss landscape

1️⃣ 一句话总结

这篇论文通过对比随机梯度下降和拟牛顿法两种优化算法，发现它们会在神经网络的损失函数地形中找到不同类型的解：随机梯度下降倾向于找到更平坦、泛化性更好的区域，而拟牛顿法则能找到更深但更孤立、泛化性较差的极小值点，从而揭示了优化策略的选择对模型鲁棒性和可迁移性的根本影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20646

arXiv 提交日期: 2026-02-24

machine learning theory model training stochastic gradient descent optimization theory perturbation analysis convergence analysis non-convex optimization

关于带有前向与后向扰动随机梯度下降的收敛性研究 / On the Convergence of Stochastic Gradient Descent with Perturbed Forward-Backward Passes

1️⃣ 一句话总结

这篇论文首次系统分析了深度学习训练中，前向和后向计算过程同时存在扰动时随机梯度下降的收敛性，解释了训练中常见的梯度尖峰现象，并给出了扰动不影响最终收敛速度的条件。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2607.04775

1️⃣ 一句话总结

arXiv ID: 2605.19641

1️⃣ 一句话总结

arXiv ID: 2605.20009

1️⃣ 一句话总结

arXiv ID: 2605.18609

1️⃣ 一句话总结

arXiv ID: 2602.22936

1️⃣ 一句话总结

arXiv ID: 2602.21276

1️⃣ 一句话总结

arXiv ID: 2602.20646

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2607.04775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19641 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20009 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18609 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22936 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21276 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20646 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2607.04775

arXiv ID: 2605.19641

arXiv ID: 2605.20009

arXiv ID: 2605.18609

arXiv ID: 2602.22936

arXiv ID: 2602.21276

arXiv ID: 2602.20646