arXiv最新AI论文速览速学

🔍

标签: #theory ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain 03-19

arXiv ID: 2603.10731

arXiv 提交日期: 2026-03-11

model evaluation machine learning theory uncertainty quantification model calibration conformal prediction monte carlo dropout reliability

超越准确率：卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

1️⃣ 一句话总结

这篇论文通过比较两种不确定性估计方法，指出在评估深度学习模型时，除了关注预测准确率，还必须重视模型预测的可靠性和校准程度，这对于高风险决策至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10991

arXiv 提交日期: 2026-03-11

machine learning model training theory simulation-based inference parameter estimation deep neural networks summary networks inverse problems

ForwardFlow：一种仅基于模拟和深度学习的统计推断方法 / ForwardFlow: Simulation only statistical inference using deep learning

1️⃣ 一句话总结

这篇论文提出了一种名为ForwardFlow的深度学习框架，它仅通过模拟数据来训练神经网络，从而解决复杂的参数估计问题，无需依赖传统统计模型，并在模拟中展现出精确性、鲁棒性和自动逼近算法的优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10493

arXiv 提交日期: 2026-03-11

machine learning theory model evaluation intrinsic dimensionality nearest neighbor dimensionality estimation nonparametric estimation convergence analysis

一种通用的内在维度最近邻估计器 / A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

1️⃣ 一句话总结

这篇论文提出了一种基于最近邻距离比率的全新方法，能够简单高效且无需依赖数据分布假设地准确估计出高维数据的真实内在维度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10301

arXiv 提交日期: 2026-03-11

model training machine learning theory learning rate schedules optimization hyperparameter tuning neural network training warmup decay

接近最优的学习率调度策略长什么样？ / What do near-optimal learning rate schedules look like?

1️⃣ 一句话总结

这篇论文通过系统性的搜索方法，发现神经网络训练中接近最优的学习率调度策略普遍包含预热和衰减阶段，并且其具体形状会受到权重衰减等超参数的显著影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10935

arXiv 提交日期: 2026-03-11

machine learning model training theory variational autoencoders posterior collapse gaussian mixture priors latent variables phase transition

历史共识：通过迭代选择高斯混合先验来防止后验塌缩 / Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

1️⃣ 一句话总结

这篇论文提出了一种名为‘历史共识训练’的新方法，通过迭代地选择和优化多个高斯混合模型先验，从根本上消除了变分自编码器中常见的后验塌缩问题，使得模型无论解码器方差或正则化强度如何，都能获得有意义的潜在表示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09952

arXiv 提交日期: 2026-03-10

machine learning model training theory optimizer design width scaling operator norms hyperparameter transfer normalization

矩阵算子范数下神经优化器的宽度缩放研究 I：行/列归一化与超参数迁移 / On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

1️⃣ 一句话总结

本文通过将AdamW等常用优化器解释为特定矩阵范数下的最速下降法，提出了一种基于行或列归一化的新优化器设计方法，能够在神经网络宽度增加时保持训练稳定性，并实现超参数在不同宽度模型间的有效迁移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09773

arXiv 提交日期: 2026-03-10

theory machine learning signature methods universal approximation path functionals stochastic processes rough paths

通过离散时间特征实现全局普适性 / Global universality via discrete-time signatures

1️⃣ 一句话总结

这篇论文证明了，对于分段线性路径，其路径特征（signature）的线性泛函在满足一定可积条件下，能够以高精度逼近一大类路径相关的函数和方程，包括布朗运动驱动的随机微分方程，从而为复杂路径数据的建模和分析提供了一个强大的通用逼近工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09772

arXiv 提交日期: 2026-03-10

machine learning model evaluation theory backdoor attacks adversarial robustness representation space neural network security feature space

移除触发器而非后门：替代触发器与潜在后门 / Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

1️⃣ 一句话总结

这篇论文挑战了传统观点，指出仅移除已知的后门触发器无法真正消除AI模型中的后门，因为存在多种感知上不同的替代触发器也能激活同一个后门，因此防御措施应针对特征空间中的后门方向，而非仅仅处理输入层面的触发器。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09742

arXiv 提交日期: 2026-03-10

theory machine learning model evaluation generalization bounds neural oscillators rademacher complexity dynamical systems pac learning

神经振荡器的泛化上界 / Upper Generalization Bounds for Neural Oscillators

1️⃣ 一句话总结

这篇论文从理论上证明了，一种基于二阶微分方程构建的‘神经振荡器’模型，其预测误差会随着模型规模和任务时长缓慢增长，从而避免了参数过多带来的‘维数灾难’，并且通过限制模型复杂度可以有效提升其在小样本数据下的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10145

arXiv 提交日期: 2026-03-10

llm model training theory gradient bottleneck softmax bottleneck optimization language model head backpropagation

迷失在反向传播中：语言模型输出层是梯度瓶颈 / Lost in Backpropagation: The LM Head is a Gradient Bottleneck

1️⃣ 一句话总结

这篇论文发现，大型语言模型输出层中巨大的词汇表维度会严重压缩和抑制反向传播的梯度信号，导致大部分参数无法获得有效的训练反馈，从而造成显著的优化瓶颈和训练效率低下。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10731

1️⃣ 一句话总结

arXiv ID: 2603.10991

1️⃣ 一句话总结

arXiv ID: 2603.10493

1️⃣ 一句话总结

arXiv ID: 2603.10301

1️⃣ 一句话总结

arXiv ID: 2603.10935

1️⃣ 一句话总结

arXiv ID: 2603.09952

1️⃣ 一句话总结

arXiv ID: 2603.09773

1️⃣ 一句话总结

arXiv ID: 2603.09772

1️⃣ 一句话总结

arXiv ID: 2603.09742

1️⃣ 一句话总结

arXiv ID: 2603.10145

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10991 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10935 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09952 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09773 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09772 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09742 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10145 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10731

arXiv ID: 2603.10991

arXiv ID: 2603.10493

arXiv ID: 2603.10301

arXiv ID: 2603.10935

arXiv ID: 2603.09952

arXiv ID: 2603.09773

arXiv ID: 2603.09772

arXiv ID: 2603.09742

arXiv ID: 2603.10145