arXiv ID:
2512.14693
通用推理模型 / Universal Reasoning Model
1️⃣ 一句话总结
这篇论文发现通用Transformer在复杂推理任务上的性能提升主要源于其循环结构和强大的非线性能力,并据此提出了一个结合短卷积和截断反向传播的改进模型,在ARC-AGI基准测试上取得了当前最好的成绩。
通用推理模型 / Universal Reasoning Model
这篇论文发现通用Transformer在复杂推理任务上的性能提升主要源于其循环结构和强大的非线性能力,并据此提出了一个结合短卷积和截断反向传播的改进模型,在ARC-AGI基准测试上取得了当前最好的成绩。
AI智能体时代的记忆:综述 / Memory in the Age of AI Agents
本文系统性地综述了基于大语言模型的智能体记忆研究,提出了一个从形式、功能和动态三个维度统一分析智能体记忆的新框架,旨在澄清领域内碎片化的概念,并为未来的研究和系统设计提供清晰的理论基础。
状态优于标记:重新概念化大语言模型中的推理标记 / State over Tokens: Characterizing the Role of Reasoning Tokens
本文提出了“状态优于标记”的概念框架,认为大语言模型在最终答案前生成的推理标记序列,本质上是外部化的计算状态载体,而非对人类思维过程的忠实解释性文本。
无误差线性注意力是免费午餐:来自连续时间动力学的精确解 / Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
这篇论文提出了一种名为EFLA的新型线性注意力机制,它通过将在线学习过程建模为连续时间动态系统,并巧妙地利用其矩阵结构,首次实现了在保持线性计算复杂度的同时,获得了完全精确、无误差积累的解,从而在理论上和实验上都显著提升了长文本建模的性能。
双向归一化流:从数据到噪声再返回 / Bidirectional Normalizing Flow: From Data to Noise and Back
这篇论文提出了一种名为双向归一化流的新框架,它通过放弃对模型精确可逆性的严格要求,允许使用更灵活的架构和损失函数来近似学习从噪声到数据的反向映射,从而在图像生成任务上实现了更高的生成质量和快达两个数量级的采样速度。
更强大的无归一化Transformer / Stronger Normalization-Free Transformers
这篇论文提出了一种名为Derf的新型激活函数,它通过搜索发现并采用高斯累积分布函数,在无需传统归一化层的情况下,在图像识别、语音和DNA建模等多个领域超越了现有方法,主要得益于其更强的泛化能力。
群表示位置编码 / Group Representational Position Encoding
这篇论文提出了一个名为GRAPE的统一框架,它利用数学中的群作用理论,将RoPE和ALiBi等主流位置编码方法都纳入其中,为设计长文本模型中的位置信息表示提供了一个更通用、更灵活的理论基础。
论预训练、中期训练与强化学习在推理语言模型中的相互作用 / On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
这项研究通过一个完全受控的实验框架发现,强化学习能否真正提升语言模型的推理能力,关键取决于预训练是否留有提升空间、训练数据是否针对模型能力的边界,并且揭示了中期训练在提升效率方面比单纯强化学习更有效。
超越实数:面向长上下文大语言模型的旋转位置编码虚部扩展 / Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
这篇论文提出了一种改进的旋转位置编码方法,通过重新利用之前被丢弃的虚部信息来增强大语言模型对长文本的理解能力,实验证明该方法能有效提升长上下文任务的性能。
小增益纳什:可微博弈中向纳什均衡的认证收缩方法 / Small-Gain Nash: Certified Contraction to Nash Equilibria in Differentiable Games
这篇论文提出了一种名为“小增益纳什”的新方法,它通过设计一种特殊的加权几何度量,为那些传统梯度方法无法保证收敛的复杂博弈(即使玩家间存在强耦合),提供了一套可计算、可验证的收敛性证明和安全的步长选择方案。
请先 登录 后再提交论文