arXiv最新AI论文速览速学

🔍

标签: #training stability ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Heterogeneous Time Constants Improve Stability in Equilibrium Propagation 03-07

arXiv ID: 2603.03402

arXiv 提交日期: 2026-03-03

theory model training biology equilibrium propagation biologically plausible learning heterogeneous time constants training stability neural dynamics

异质性时间常数提升平衡传播算法的稳定性 / Heterogeneous Time Constants Improve Stability in Equilibrium Propagation

1️⃣ 一句话总结

这篇论文提出在平衡传播算法中为不同神经元设置不同的时间常数，就像大脑神经元本身具有不同的反应速度一样，这种方法不仅让算法更贴近生物机制，还显著提高了训练过程的稳定性，同时保持了良好的任务性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15620

arXiv 提交日期: 2026-02-17

llm reinforcement learning model training policy optimization training stability spurious tokens mathematical reasoning fine-tuning

STAPO：通过抑制罕见伪标记来稳定大语言模型的强化学习训练 / STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

1️⃣ 一句话总结

这篇论文发现大语言模型强化学习训练不稳定的根源是极少数‘伪标记’，并提出了STAPO方法，通过选择性屏蔽这些标记的梯度更新，有效提升了训练稳定性和模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09303

arXiv 提交日期: 2026-02-10

model training systems theory physics-informed ml consistency models partial differential equations generative inference training stability

通过结构保持训练稳定物理信息一致性模型 / Stabilizing Physics-Informed Consistency Models via Structure-Preserving Training

1️⃣ 一句话总结

这篇论文提出了一种新的训练方法，通过分阶段学习和改进物理约束目标，解决了用生成式模型快速求解物理方程时容易崩溃或失真的问题，从而在保持高精度的同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05644

arXiv 提交日期: 2026-02-05

reinforcement learning robotics model training uav trajectory optimization noisy dqn exploration enhancement adaptive noise scheduling training stability

基于改进噪声深度Q网络的无人机轨迹优化 / UAV Trajectory Optimization via Improved Noisy Deep Q-Network

1️⃣ 一句话总结

这篇论文提出了一种改进的噪声深度Q网络方法，通过增强智能体的探索能力和训练稳定性，让无人机在模拟环境中学习飞行轨迹时，能更快地找到最优路径并获得更高的任务奖励。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05779

arXiv 提交日期: 2026-02-05

model training machine learning theory sparse activation initialization training stability gaussian process energy efficiency

如何通过控制方差来提升稀疏激活深度神经网络和卷积神经网络的训练稳定性 / How Controlling the Variance can Improve Training Stability of Sparsely Activated DNNs and CNNs

1️⃣ 一句话总结

这篇论文发现，在初始化深度神经网络时，通过设置一个较大的高斯过程方差，可以显著提升使用稀疏激活函数（如CReLU）的模型的训练稳定性，并能在隐藏层激活稀疏度高达90%的情况下保持模型性能，为降低机器学习模型的能耗提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02400

arXiv 提交日期: 2026-02-02

llm model training data pretraining noisy data loss divergence training stability empirical study

关于噪声数据与大语言模型预训练损失发散现象的实证研究 / An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence

1️⃣ 一句话总结

这项研究通过大规模实验证实，大语言模型预训练过程中使用的网络数据如果含有过多随机噪声，确实会导致模型训练失败，并且失败的概率与噪声类型、数量以及模型规模密切相关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17483

arXiv 提交日期: 2026-01-24

model training machine learning systems training stability optimization runtime safety neural networks recovery mechanism

神经网络训练的自动稳定性与恢复 / Automatic Stability and Recovery for Neural Network Training

1️⃣ 一句话总结

这篇论文提出了一种在神经网络训练过程中自动监控、检测并从中断性错误中恢复的运行时框架，无需修改原有优化器，从而保证了训练过程的稳定性和安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05242

arXiv 提交日期: 2026-01-08

reinforcement learning llm model training multi-reward rl policy optimization reward normalization alignment training stability

GDPO：面向多奖励强化学习的组奖励解耦归一化策略优化 / GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

1️⃣ 一句话总结

本文提出了一种名为GDPO的新策略优化方法，通过解耦多个奖励的归一化过程，有效解决了现有方法在多奖励强化学习中因信号模糊导致的训练不稳定和性能不佳的问题，并在工具调用、数学推理和代码推理等任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24880

arXiv 提交日期: 2025-12-31

model training systems theory neural architecture residual connections training stability scalability manifold optimization

mHC：流形约束的超连接 / mHC: Manifold-Constrained Hyper-Connections

1️⃣ 一句话总结

这篇论文提出了一种名为mHC的新框架，它通过将神经网络中复杂的‘超连接’结构约束在特定几何空间上，既保留了其提升性能的优点，又解决了由此带来的训练不稳定和难以扩展的问题，为设计更强大、更稳定的AI模型提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05591

arXiv 提交日期: 2025-12-05

reinforcement learning model training theory policy entropy distribution shift ppo-clip training stability off-policy

熵比率裁剪：一种用于稳定强化学习的软全局约束 / Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘熵比率裁剪’的新方法，通过控制新旧策略之间熵的全局变化来稳定大语言模型的强化学习训练过程，有效解决了因策略分布偏移导致的训练不稳定问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03402

1️⃣ 一句话总结

arXiv ID: 2602.15620

1️⃣ 一句话总结

arXiv ID: 2602.09303

1️⃣ 一句话总结

arXiv ID: 2602.05644

1️⃣ 一句话总结

arXiv ID: 2602.05779

1️⃣ 一句话总结

arXiv ID: 2602.02400

1️⃣ 一句话总结

arXiv ID: 2601.17483

1️⃣ 一句话总结

arXiv ID: 2601.05242

1️⃣ 一句话总结

arXiv ID: 2512.24880

1️⃣ 一句话总结

arXiv ID: 2512.05591

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03402 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15620 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09303 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05644 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05779 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02400 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17483 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05242 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24880 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05591 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03402

arXiv ID: 2602.15620

arXiv ID: 2602.09303

arXiv ID: 2602.05644

arXiv ID: 2602.05779

arXiv ID: 2602.02400

arXiv ID: 2601.17483

arXiv ID: 2601.05242

arXiv ID: 2512.24880

arXiv ID: 2512.05591