arXiv最新AI论文速览速学

🔍

标签: #regularization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Robust Reward Modeling for Large Language Models via Causal Decomposition 04-16

arXiv ID: 2604.13833

arXiv 提交日期: 2026-04-15

llm model training model evaluation reward modeling causal decomposition alignment regularization robustness

通过因果分解实现大语言模型的稳健奖励建模 / Robust Reward Modeling for Large Language Models via Causal Decomposition

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过训练一个解码器来重构用户提问的潜在意图，并利用重构误差来指导奖励模型，从而有效减少奖励模型对答案长度、讨好语气等表面线索的依赖，使其更专注于理解用户真实意图，最终在多个任务上提升了模型的判断准确性和输出质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25009

arXiv 提交日期: 2026-03-26

theory model training machine learning grokking generalization optimization regularization neural networks

关于神经网络“顿悟”现象的系统性实证研究：深度、架构、激活函数与正则化 / A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization

1️⃣ 一句话总结

这篇论文通过一系列精心控制的实验发现，神经网络训练中出现的‘顿悟’现象（即模型从死记硬背突然转变为真正理解规律）主要不是由网络架构决定的，而是由优化过程的稳定性和正则化强度之间的微妙互动共同主导的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16568

arXiv 提交日期: 2026-03-17

machine learning model training theory autoencoders unsupervised learning manifold learning dimensionality reduction regularization

流形匹配自编码器 / Manifold-Matching Autoencoders

1️⃣ 一句话总结

这篇论文提出了一种名为流形匹配自编码器的简单无监督正则化方法，它通过让编码器在潜在空间中保持与原始输入数据相同的点间距离关系，来提升数据表示的保真度和可扩展性，效果优于同类方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09253

arXiv 提交日期: 2026-03-10

model training natural language processing theory attention mechanisms efficient inference transformers regularization optimization

通过长度感知注意力先验与增益感知训练实现固定测试时成本下的高效推理 / Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

1️⃣ 一句话总结

这篇论文提出了一种在训练时引入长度感知注意力先验和增益感知控制器的方法，使得中小型Transformer模型在推理时无需增加任何计算开销，就能提升处理长序列和噪声数据的能力，从而在保持测试速度不变的情况下提高模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20328

arXiv 提交日期: 2026-02-23

theory computer vision model training inverse problems graph signal processing image reconstruction null-space representation regularization

GSNR：用于反问题的图平滑零空间表示 / GSNR: Graph Smooth Null-Space Representation for Inverse Problems

1️⃣ 一句话总结

这篇论文提出了一种名为GSNR的新方法，通过利用图结构来约束成像反问题中不可观测的‘零空间’信号成分，从而在多种图像重建任务中显著提升了重建质量，效果优于现有主流方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10754

arXiv 提交日期: 2026-02-11

machine learning systems model training graph neural networks sparsification adaptive rewiring regularization power grid analysis

探索自适应重连在图神经网络中的影响 / Exploring the impact of adaptive rewiring in Graph Neural Networks

1️⃣ 一句话总结

这篇论文研究了通过自适应重连等稀疏化方法来优化图神经网络，使其在保持性能的同时降低计算成本，并在电网可靠性分析等关键任务中验证了该方法的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09613

arXiv 提交日期: 2026-02-10

machine learning theory model training neural odes lyapunov exponents adversarial robustness regularization dynamical systems

通过追踪有限时间李雅普诺夫指数来增强神经ODE的鲁棒性 / Tracking Finite-Time Lyapunov Exponents to Robustify Neural ODEs

1️⃣ 一句话总结

这篇论文提出了一种通过抑制神经网络在早期阶段对输入扰动的过度敏感程度（即有限时间李雅普诺夫指数），来提升模型对抗攻击鲁棒性的新训练方法，该方法比传统正则化更高效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05430

arXiv 提交日期: 2026-02-05

machine learning model evaluation systems time series forecasting electricity price foundation models volatile markets regularization

面向波动市场的日前电价预测：采用正则化策略的基础模型研究 / Day-Ahead Electricity Price Forecasting for Volatile Markets Using Foundation Models with Regularization Strategy

1️⃣ 一句话总结

这篇论文提出了一种针对电价尖峰的正则化策略，并证明在波动剧烈的电力市场中，时间序列基础模型在预测日前电价时，比传统的统计和深度学习模型更准确，最高可将预测误差降低37.4%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05717

arXiv 提交日期: 2026-02-05

reinforcement learning theory model training policy optimization exploration collapse support coverage gradient alignment regularization

锚定策略优化：通过支持约束修正来缓解探索崩溃 / Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification

1️⃣ 一句话总结

这篇论文提出了一种名为‘锚定策略优化’的新方法，通过确保智能体在强化学习中始终覆盖有效的行动选项，解决了现有方法因过度‘锐化’而导致的探索范围崩溃问题，从而在提升任务成功率的同时保持了决策的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04380

arXiv 提交日期: 2026-02-04

llm model training theory policy optimization bregman divergence reasoning mirror descent regularization

超越KL散度：利用灵活的布雷格曼散度进行大语言模型推理的策略优化 / Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GBMPO的新框架，通过引入更灵活的布雷格曼散度（如概率空间的L2距离或可学习的神经网络映射）来代替传统的KL散度进行策略正则化，从而显著提升了大语言模型在数学推理和代码生成任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.13833

1️⃣ 一句话总结

arXiv ID: 2603.25009

1️⃣ 一句话总结

arXiv ID: 2603.16568

1️⃣ 一句话总结

arXiv ID: 2603.09253

1️⃣ 一句话总结

arXiv ID: 2602.20328

1️⃣ 一句话总结

arXiv ID: 2602.10754

1️⃣ 一句话总结

arXiv ID: 2602.09613

1️⃣ 一句话总结

arXiv ID: 2602.05430

1️⃣ 一句话总结

arXiv ID: 2602.05717

1️⃣ 一句话总结

arXiv ID: 2602.04380

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.13833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25009 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16568 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09253 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20328 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10754 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09613 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05430 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05717 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04380 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.13833

arXiv ID: 2603.25009

arXiv ID: 2603.16568

arXiv ID: 2603.09253

arXiv ID: 2602.20328

arXiv ID: 2602.10754

arXiv ID: 2602.09613

arXiv ID: 2602.05430

arXiv ID: 2602.05717

arXiv ID: 2602.04380