arXiv最新AI论文速览速学

🔍

theory ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search 03-17

arXiv ID: 2603.11319

arXiv 提交日期: 2026-03-11

theory machine learning model training score-based generative models langevin dynamics robustness analysis diffusion models sampling error

朗之万动力学对分数函数估计误差的鲁棒性研究 / On the Robustness of Langevin Dynamics to Score Function Error

1️⃣ 一句话总结

这篇论文通过理论分析证明，即使分数函数估计的误差非常小，基于朗之万动力学的生成模型在多项式时间内也无法准确采样，从而为扩散模型相对于朗之万动力学的优越性提供了理论依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10721

arXiv 提交日期: 2026-03-11

machine learning model training theory clustering k-median learning-augmented algorithms high-dimensional data sampling algorithms

采样与搜索：一种用于高维学习增强k-中值聚类的有效算法 / Sample-and-Search: An Effective Algorithm for Learning-Augmented k-Median Clustering in High dimensions

1️⃣ 一句话总结

这篇论文提出了一种基于简单采样策略的新算法，通过利用预测器对数据点进行预处理，显著降低了高维空间中学习增强型k-中值聚类问题的计算复杂度，并在实验中取得了比现有方法更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10379

arXiv 提交日期: 2026-03-11

model training theory systems mixture-of-experts scaling laws compute allocation model architecture sparse models

混合专家模型中专家与注意力模块的最优计算分配：动态模型设计的可扩展法则 / Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

1️⃣ 一句话总结

这篇论文为混合专家模型找到了一个明确的数学公式，可以像调节配方一样，根据总计算量和模型稀疏度，自动确定分配给专家模块和注意力模块的最优计算比例，从而在固定计算预算下设计出性能最好的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10895

arXiv 提交日期: 2026-03-11

reinforcement learning theory agents ergodicity reward processes policy optimization markov chains trajectory performance

强化学习中的遍历性 / Ergodicity in reinforcement learning

1️⃣ 一句话总结

这篇论文指出，当强化学习中的奖励过程不具备遍历性时，传统的期望值优化目标无法保证单个智能体的长期表现，并探讨了解决这一问题的现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10731

arXiv 提交日期: 2026-03-11

model evaluation machine learning theory uncertainty quantification model calibration conformal prediction monte carlo dropout reliability

超越准确率：卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

1️⃣ 一句话总结

这篇论文通过比较两种不确定性估计方法，指出在评估深度学习模型时，除了关注预测准确率，还必须重视模型预测的可靠性和校准程度，这对于高风险决策至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10991

arXiv 提交日期: 2026-03-11

machine learning model training theory simulation-based inference parameter estimation deep neural networks summary networks inverse problems

ForwardFlow：一种仅基于模拟和深度学习的统计推断方法 / ForwardFlow: Simulation only statistical inference using deep learning

1️⃣ 一句话总结

这篇论文提出了一种名为ForwardFlow的深度学习框架，它仅通过模拟数据来训练神经网络，从而解决复杂的参数估计问题，无需依赖传统统计模型，并在模拟中展现出精确性、鲁棒性和自动逼近算法的优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10493

arXiv 提交日期: 2026-03-11

machine learning theory model evaluation intrinsic dimensionality nearest neighbor dimensionality estimation nonparametric estimation convergence analysis

一种通用的内在维度最近邻估计器 / A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

1️⃣ 一句话总结

这篇论文提出了一种基于最近邻距离比率的全新方法，能够简单高效且无需依赖数据分布假设地准确估计出高维数据的真实内在维度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10301

arXiv 提交日期: 2026-03-11

model training machine learning theory learning rate schedules optimization hyperparameter tuning neural network training warmup decay

接近最优的学习率调度策略长什么样？ / What do near-optimal learning rate schedules look like?

1️⃣ 一句话总结

这篇论文通过系统性的搜索方法，发现神经网络训练中接近最优的学习率调度策略普遍包含预热和衰减阶段，并且其具体形状会受到权重衰减等超参数的显著影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10935

arXiv 提交日期: 2026-03-11

machine learning model training theory variational autoencoders posterior collapse gaussian mixture priors latent variables phase transition

历史共识：通过迭代选择高斯混合先验来防止后验塌缩 / Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

1️⃣ 一句话总结

这篇论文提出了一种名为‘历史共识训练’的新方法，通过迭代地选择和优化多个高斯混合模型先验，从根本上消除了变分自编码器中常见的后验塌缩问题，使得模型无论解码器方差或正则化强度如何，都能获得有意义的潜在表示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09952

arXiv 提交日期: 2026-03-10

machine learning model training theory optimizer design width scaling operator norms hyperparameter transfer normalization

矩阵算子范数下神经优化器的宽度缩放研究 I：行/列归一化与超参数迁移 / On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

1️⃣ 一句话总结

本文通过将AdamW等常用优化器解释为特定矩阵范数下的最速下降法，提出了一种基于行或列归一化的新优化器设计方法，能够在神经网络宽度增加时保持训练稳定性，并实现超参数在不同宽度模型间的有效迁移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.11319

1️⃣ 一句话总结

arXiv ID: 2603.10721

1️⃣ 一句话总结

arXiv ID: 2603.10379

1️⃣ 一句话总结

arXiv ID: 2603.10895

1️⃣ 一句话总结

arXiv ID: 2603.10731

1️⃣ 一句话总结

arXiv ID: 2603.10991

1️⃣ 一句话总结

arXiv ID: 2603.10493

1️⃣ 一句话总结

arXiv ID: 2603.10301

1️⃣ 一句话总结

arXiv ID: 2603.10935

1️⃣ 一句话总结

arXiv ID: 2603.09952

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.11319 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10721 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10379 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10991 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10935 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09952 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.11319

arXiv ID: 2603.10721

arXiv ID: 2603.10379

arXiv ID: 2603.10895

arXiv ID: 2603.10731

arXiv ID: 2603.10991

arXiv ID: 2603.10493

arXiv ID: 2603.10301

arXiv ID: 2603.10935

arXiv ID: 2603.09952