arXiv ID:
2512.07805
群表示位置编码 / Group Representational Position Encoding
1️⃣ 一句话总结
这篇论文提出了一个名为GRAPE的统一框架,它利用数学中的群作用理论,将RoPE和ALiBi等主流位置编码方法都纳入其中,为设计长文本模型中的位置信息表示提供了一个更通用、更灵活的理论基础。
群表示位置编码 / Group Representational Position Encoding
这篇论文提出了一个名为GRAPE的统一框架,它利用数学中的群作用理论,将RoPE和ALiBi等主流位置编码方法都纳入其中,为设计长文本模型中的位置信息表示提供了一个更通用、更灵活的理论基础。
论预训练、中期训练与强化学习在推理语言模型中的相互作用 / On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
这项研究通过一个完全受控的实验框架发现,强化学习能否真正提升语言模型的推理能力,关键取决于预训练是否留有提升空间、训练数据是否针对模型能力的边界,并且揭示了中期训练在提升效率方面比单纯强化学习更有效。
超越实数:面向长上下文大语言模型的旋转位置编码虚部扩展 / Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
这篇论文提出了一种改进的旋转位置编码方法,通过重新利用之前被丢弃的虚部信息来增强大语言模型对长文本的理解能力,实验证明该方法能有效提升长上下文任务的性能。
小增益纳什:可微博弈中向纳什均衡的认证收缩方法 / Small-Gain Nash: Certified Contraction to Nash Equilibria in Differentiable Games
这篇论文提出了一种名为“小增益纳什”的新方法,它通过设计一种特殊的加权几何度量,为那些传统梯度方法无法保证收敛的复杂博弈(即使玩家间存在强耦合),提供了一套可计算、可验证的收敛性证明和安全的步长选择方案。
熵比率裁剪:一种用于稳定强化学习的软全局约束 / Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
这篇论文提出了一种名为‘熵比率裁剪’的新方法,通过控制新旧策略之间熵的全局变化来稳定大语言模型的强化学习训练过程,有效解决了因策略分布偏移导致的训练不稳定问题。
协同改进:迈向更安全、更可实现的超级智能之路 / AI & Human Co-Improvement for Safer Co-Superintelligence
本文提出并论证了“协同改进”作为替代“自我改进”的AI发展新范式,主张通过人类研究者与AI系统在整个研究周期内深度协作,以更快、更安全地实现对人类有益的超级智能。
QKAN-LSTM:量子启发的Kolmogorov-Arnold长短期记忆网络 / QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory
这篇论文提出了一种名为QKAN-LSTM的新型循环神经网络,它通过引入量子启发的激活模块,在保持经典硬件可运行的同时,大幅提升了模型对复杂时间序列的预测能力,并减少了近80%的训练参数。
基于模型且样本高效的AI辅助球体堆积数学发现 / Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing
这篇论文提出了一种结合贝叶斯优化与蒙特卡洛树搜索的、基于模型且样本高效的人工智能方法,成功解决了传统数据密集型AI难以处理的球体堆积优化问题,并在多个维度上获得了目前最精确的上界结果。
大规模AI模型中稀疏专家混合模型无辅助损失负载均衡的理论框架 / A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models
这篇论文为一种无需额外损失函数就能平衡AI大模型中专家工作负载的新方法,建立了一个坚实的数学理论框架,并通过实验验证了其有效性,有助于更高效地利用昂贵的计算资源。
上下文表示劫持 / In-Context Representation Hijacking
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
请先 登录 后再提交论文