arXiv最新AI论文速览速学

🔍

theory ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search 03-17

arXiv ID: 2603.15377

arXiv 提交日期: 2026-03-16

llm model evaluation theory beam search overestimation bias extreme value theory signal-to-noise ratio reasoning

更多测试时计算可能有害：大语言模型束搜索中的高估偏差 / More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search

1️⃣ 一句话总结

这篇论文发现，在大型语言模型的推理过程中，盲目增加束搜索的宽度（即考虑更多候选路径）反而可能降低输出质量，其根本原因在于评分器的噪声会导致系统性的高估偏差，而决定最佳搜索宽度的关键因素是评分器输出信号与噪声的比值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15189

arXiv 提交日期: 2026-03-16

theory machine learning model evaluation dueling bandits best-arm identification sample complexity condorcet winner stochastic bandits

对决赌博机中孔多塞胜者识别的采样复杂度 / The Sampling Complexity of Condorcet Winner Identification in Dueling Bandits

1️⃣ 一句话总结

这篇论文提出了一种新的识别方法，通过利用所有候选选项之间的两两比较信息，而非仅仅关注胜者与其他选项的比较，显著降低了在随机对决赌博机模型中准确找出最优选项所需的最小样本量，并首次给出了该问题的理论最优样本复杂度界限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15384

arXiv 提交日期: 2026-03-16

machine learning theory topological data analysis optimal transport persistence diagrams measure representation functional data

持久球：用于部分最优传输的测度的双连续线性表示 / Persistence Spheres: a Bi-continuous Linear Representation of Measures for Partial Optimal Transport

1️⃣ 一句话总结

这篇论文提出了一种名为‘持久球’的改进方法，它能将拓扑数据分析中常用的‘持久图’等测度稳定地映射到球面函数上，为机器学习任务提供了一个无需参数调整、性能优越的通用特征表示工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14923

arXiv 提交日期: 2026-03-16

llm model training theory transformers attention mechanisms mechanistic interpretability routing model efficiency

Transformer中的定向路由机制 / Directional Routing in Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为‘定向路由’的轻量级机制，它能让Transformer模型中的注意力头学会协作，极大地提升了模型理解和记忆事实的能力，但移除这个协作机制会使模型性能崩溃，而单独移除某个注意力头影响却很小。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14893

arXiv 提交日期: 2026-03-16

llm model evaluation theory signal detection theory calibration temperature scaling sensitivity bias decomposition model confidence

大语言模型作为信号检测器：敏感性、偏差与温度-判断标准的类比 / LLMs as Signal Detectors: Sensitivity, Bias, and the Temperature-Criterion Analogy

1️⃣ 一句话总结

这篇论文将大语言模型视为信号检测器，运用信号检测理论分析发现，调整模型的“温度”参数会同时改变其区分答案对错的敏感性和判断倾向，这与人类心理物理学的经典理论不完全一致，并揭示了现有评估指标无法区分的模型内在差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15250

arXiv 提交日期: 2026-03-16

machine learning model training theory symbolic regression kolmogorov-arnold networks model robustness operator extraction in-context learning

基于上下文符号回归的鲁棒性提升型柯尔莫哥洛夫-阿诺德网络 / In-Context Symbolic Regression for Robustness-Improved Kolmogorov-Arnold Networks

1️⃣ 一句话总结

这篇论文提出了一种新的上下文符号回归方法，通过贪婪搜索或门控匹配策略，将柯尔莫哥洛夫-阿诺德网络中的可学习函数替换为简洁的数学符号表达式，从而显著提升了模型的可解释性和公式提取的鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15059

arXiv 提交日期: 2026-03-16

machine learning model training theory optimization stochastic optimization heavy-tailed noise nonconvex optimization convergence analysis

Muon优化器在重尾噪声下的收敛性：非凸Hölder平滑经验风险最小化 / Muon Converges under Heavy-Tailed Noise: Nonconvex Hölder-Smooth Empirical Risk Minimization

1️⃣ 一句话总结

这篇论文证明了，即使在训练数据噪声呈现‘重尾分布’（即存在极端异常值）的严苛条件下，一种名为Muon的新型优化算法也能稳定地找到神经网络的有效解，并且其收敛速度比传统的小批量随机梯度下降法更快。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15051

arXiv 提交日期: 2026-03-16

llm model training theory latent reasoning adaptive computation efficiency mathematical reasoning chain-of-thought

潜在思考：面向大语言模型隐式推理的自适应锚点优化方法 / Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为AdaAnchor的新方法，它让大语言模型在内部进行‘无声’的迭代思考，通过动态调整思考步骤来高效解决数学应用题，能在保持甚至提升准确率的同时，大幅减少输出文本的长度和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15031

arXiv 提交日期: 2026-03-16

llm model training theory residual connections attention mechanism layer normalization scaling laws model architecture

注意力残差 / Attention Residuals

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力残差’的新方法，它用可学习的注意力机制取代了传统大语言模型中固定权重的残差连接，从而让模型能根据输入内容动态选择性地组合不同深度的信息，有效缓解了深层网络中的信息稀释问题，并在实际训练中提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14846

arXiv 提交日期: 2026-03-16

theory machine learning model evaluation graph neural networks expressivity message passing color refinement graph isomorphism

聚合中的迷失：论消息传递图神经网络表达能力的一个根本性限制 / Lost in Aggregation: On a Fundamental Expressivity Limit of Message-Passing Graph Neural Networks

1️⃣ 一句话总结

这篇论文证明，无论采用何种聚合方式，消息传递图神经网络（MP-GNN）区分不同图结构的能力存在根本性上限，其表达能力远弱于经典的图着色算法，无法有效区分数量庞大的非同构图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15377

1️⃣ 一句话总结

arXiv ID: 2603.15189

1️⃣ 一句话总结

arXiv ID: 2603.15384

1️⃣ 一句话总结

arXiv ID: 2603.14923

1️⃣ 一句话总结

arXiv ID: 2603.14893

1️⃣ 一句话总结

arXiv ID: 2603.15250

1️⃣ 一句话总结

arXiv ID: 2603.15059

1️⃣ 一句话总结

arXiv ID: 2603.15051

1️⃣ 一句话总结

arXiv ID: 2603.15031

1️⃣ 一句话总结

arXiv ID: 2603.14846

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15377 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15189 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15384 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14923 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14893 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15250 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15059 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15051 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14846 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15377

arXiv ID: 2603.15189

arXiv ID: 2603.15384

arXiv ID: 2603.14923

arXiv ID: 2603.14893

arXiv ID: 2603.15250

arXiv ID: 2603.15059

arXiv ID: 2603.15051

arXiv ID: 2603.15031

arXiv ID: 2603.14846