arXiv ID:
2512.13961
Olmo 3 / Olmo 3
1️⃣ 一句话总结
这篇论文介绍了名为Olmo 3的系列开源大语言模型,包含70亿和320亿参数两个版本,特别擅长处理长文本推理、代码生成和指令跟随等任务,并完全公开了从数据到训练的所有细节,其中最强的320亿参数模型是目前性能最好的开源推理模型。
Olmo 3 / Olmo 3
这篇论文介绍了名为Olmo 3的系列开源大语言模型,包含70亿和320亿参数两个版本,特别擅长处理长文本推理、代码生成和指令跟随等任务,并完全公开了从数据到训练的所有细节,其中最强的320亿参数模型是目前性能最好的开源推理模型。
大语言模型能力消除方法比较分析:一项跨架构评估 / Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
这篇论文评估了四种用于移除大语言模型安全拒绝能力的工具在不同模型上的效果,发现数学推理能力受这些工具影响最大,为研究者选择合适工具提供了依据。
AI智能体时代的记忆:综述 / Memory in the Age of AI Agents
本文系统性地综述了基于大语言模型的智能体记忆研究,提出了一个从形式、功能和动态三个维度统一分析智能体记忆的新框架,旨在澄清领域内碎片化的概念,并为未来的研究和系统设计提供清晰的理论基础。
ReFusion:一种采用并行自回归解码的扩散大语言模型 / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
这篇论文提出了一种名为ReFusion的新模型,它通过将并行解码从单个词元提升到更高级的‘片段’级别,并采用‘规划-填充’的两步解码策略,在保持高质量文本生成的同时,显著提升了生成速度,成功弥合了传统自回归模型与并行扩散模型之间的性能与效率鸿沟。
评估大型语言模型的三段论推理能力:双基准框架与信念偏差的系统性研究 / Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives
本研究通过提出一个同时评估逻辑形式有效性和自然语言结论可信度的双基准框架,系统性地评估了14个大型语言模型的三段论推理能力,发现多数模型存在显著的信念偏差,且其形式逻辑能力优于自然语言理解能力,这与人类推理模式相反。
状态优于标记:重新概念化大语言模型中的推理标记 / State over Tokens: Characterizing the Role of Reasoning Tokens
本文提出了“状态优于标记”的概念框架,认为大语言模型在最终答案前生成的推理标记序列,本质上是外部化的计算状态载体,而非对人类思维过程的忠实解释性文本。
思维内推理:潜在空间中的动态多模态交错 / Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
这篇论文提出了一种名为DMLR的新方法,它模仿人类思维中感知与推理动态交织的过程,在模型内部潜在空间中进行高效的视觉-文本信息融合,从而显著提升了多模态模型的推理能力和效率。
利用混合LoRA改进递归Transformer模型 / Improving Recursive Transformers with Mixture of LoRAs
这篇论文提出了一种名为MoL的轻量级方法,通过在共享网络中插入可动态选择的低秩适配器,成功解决了递归Transformer因参数共享而导致的表达能力下降问题,使得小模型也能达到甚至超越大模型的性能,并且推理时还能压缩成一个高效模块。
用于语言模型通用推理的耦合变分强化学习 / Coupled Variational Reinforcement Learning for Language Model General Reasoning
这篇论文提出了一种名为CoVRL的新方法,通过将变分推断和强化学习相结合,让语言模型在无需外部验证的情况下,更高效地生成逻辑连贯的推理过程,从而显著提升了数学和通用推理任务的表现。
WebOperator:面向网络环境中自主代理的、具备行动感知能力的树搜索框架 / WebOperator: Action-Aware Tree Search for Autonomous Agents in Web Environment
这篇论文提出了一个名为WebOperator的新框架,它通过结合前瞻性的树搜索、安全的回退机制以及多样化的行动生成,显著提升了AI代理在复杂网页环境中(如在线购物或信息查询)执行任务的成功率和可靠性。
请先 登录 后再提交论文