arXiv最新AI论文速览速学

🔍

标签: #theory ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search 03-17

arXiv ID: 2512.07805

arXiv 提交日期: 2025-12-08

natural language processing model training theory positional encoding group theory long-context attention transformer

群表示位置编码 / Group Representational Position Encoding

1️⃣ 一句话总结

这篇论文提出了一个名为GRAPE的统一框架，它利用数学中的群作用理论，将RoPE和ALiBi等主流位置编码方法都纳入其中，为设计长文本模型中的位置信息表示提供了一个更通用、更灵活的理论基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07783

arXiv 提交日期: 2025-12-08

llm model training theory reinforcement learning reasoning training pipeline generalization capability gains

论预训练、中期训练与强化学习在推理语言模型中的相互作用 / On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

1️⃣ 一句话总结

这项研究通过一个完全受控的实验框架发现，强化学习能否真正提升语言模型的推理能力，关键取决于预训练是否留有提升空间、训练数据是否针对模型能力的边界，并且揭示了中期训练在提升效率方面比单纯强化学习更有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07525

arXiv 提交日期: 2025-12-08

llm model training theory positional encoding long-context attention mechanism rotary position embeddings complex-valued representation

超越实数：面向长上下文大语言模型的旋转位置编码虚部扩展 / Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

1️⃣ 一句话总结

这篇论文提出了一种改进的旋转位置编码方法，通过重新利用之前被丢弃的虚部信息来增强大语言模型对长文本的理解能力，实验证明该方法能有效提升长上下文任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06791

arXiv 提交日期: 2025-12-07

theory machine learning agents game theory nash equilibrium convergence analysis gradient methods contraction theory

小增益纳什：可微博弈中向纳什均衡的认证收缩方法 / Small-Gain Nash: Certified Contraction to Nash Equilibria in Differentiable Games

1️⃣ 一句话总结

这篇论文提出了一种名为“小增益纳什”的新方法，它通过设计一种特殊的加权几何度量，为那些传统梯度方法无法保证收敛的复杂博弈（即使玩家间存在强耦合），提供了一套可计算、可验证的收敛性证明和安全的步长选择方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05591

arXiv 提交日期: 2025-12-05

reinforcement learning model training theory policy entropy distribution shift ppo-clip training stability off-policy

熵比率裁剪：一种用于稳定强化学习的软全局约束 / Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘熵比率裁剪’的新方法，通过控制新旧策略之间熵的全局变化来稳定大语言模型的强化学习训练过程，有效解决了因策略分布偏移导致的训练不稳定问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05356

arXiv 提交日期: 2025-12-05

agents theory model training human-ai collaboration ai safety superintelligence research paradigm reinforcement learning

协同改进：迈向更安全、更可实现的超级智能之路 / AI & Human Co-Improvement for Safer Co-Superintelligence

1️⃣ 一句话总结

本文提出并论证了“协同改进”作为替代“自我改进”的AI发展新范式，主张通过人类研究者与AI系统在整个研究周期内深度协作，以更快、更安全地实现对人类有益的超级智能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05049

arXiv 提交日期: 2025-12-04

machine learning model training theory quantum-inspired models lstm sequential modeling parameter efficiency kolmogorov-arnold network

QKAN-LSTM：量子启发的Kolmogorov-Arnold长短期记忆网络 / QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory

1️⃣ 一句话总结

这篇论文提出了一种名为QKAN-LSTM的新型循环神经网络，它通过引入量子启发的激活模块，在保持经典硬件可运行的同时，大幅提升了模型对复杂时间序列的预测能力，并减少了近80%的训练参数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04829

arXiv 提交日期: 2025-12-04

machine learning model training theory sphere packing semidefinite programming bayesian optimization monte carlo tree search sequential decision process

基于模型且样本高效的AI辅助球体堆积数学发现 / Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing

1️⃣ 一句话总结

这篇论文提出了一种结合贝叶斯优化与蒙特卡洛树搜索的、基于模型且样本高效的人工智能方法，成功解决了传统数据密集型AI难以处理的球体堆积优化问题，并在多个维度上获得了目前最精确的上界结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03915

arXiv 提交日期: 2025-12-03

model training systems theory mixture-of-experts load balancing optimization theory large-scale training primal-dual methods

大规模AI模型中稀疏专家混合模型无辅助损失负载均衡的理论框架 / A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models

1️⃣ 一句话总结

这篇论文为一种无需额外损失函数就能平衡AI大模型中专家工作负载的新方法，建立了一个坚实的数学理论框架，并通过实验验证了其有效性，有助于更高效地利用昂贵的计算资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03771

arXiv 提交日期: 2025-12-03

llm model evaluation theory adversarial attack safety alignment representation hijacking in-context learning interpretability

上下文表示劫持 / In-Context Representation Hijacking

1️⃣ 一句话总结

这篇论文提出了一种名为‘Doublespeak’的简单攻击方法，通过在多轮对话示例中系统性地将有害词汇（如‘炸弹’）替换为无害词汇（如‘胡萝卜’），使得大语言模型在内部将无害词汇的语义理解为有害内容，从而绕过模型的安全防护机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.07805

1️⃣ 一句话总结

arXiv ID: 2512.07783

1️⃣ 一句话总结

arXiv ID: 2512.07525

1️⃣ 一句话总结

arXiv ID: 2512.06791

1️⃣ 一句话总结

arXiv ID: 2512.05591

1️⃣ 一句话总结

arXiv ID: 2512.05356

1️⃣ 一句话总结

arXiv ID: 2512.05049

1️⃣ 一句话总结

arXiv ID: 2512.04829

1️⃣ 一句话总结

arXiv ID: 2512.03915

1️⃣ 一句话总结

arXiv ID: 2512.03771

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.07805 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07783 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07525 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06791 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05591 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05356 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05049 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04829 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03915 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03771 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.07805

arXiv ID: 2512.07783

arXiv ID: 2512.07525

arXiv ID: 2512.06791

arXiv ID: 2512.05591

arXiv ID: 2512.05356

arXiv ID: 2512.05049

arXiv ID: 2512.04829

arXiv ID: 2512.03915

arXiv ID: 2512.03771