QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

📄 Abstract - QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.

QwenLong-L1.5：通过系统性后训练创新实现卓越的长上下文推理能力 / QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

1️⃣ 一句话总结

本文提出了QwenLong-L1.5模型，通过一套整合了高质量数据合成、稳定强化学习训练和超长上下文记忆增强架构的系统性后训练方案，显著提升了模型在长上下文推理任务上的性能，使其在多个基准测试中达到与顶尖模型相当的水平。

2️⃣ 论文创新点

1. 长上下文数据合成流水线

创新点：开发了一个系统性的合成框架，用于生成需要基于全局分布证据进行多跳推理的挑战性任务数据。该方法将文档解构为原子事实及其底层关系，并以编程方式组合出可验证的复杂推理问题。
区别/改进：超越了简单的检索任务，实现了真正的长距离推理能力，并为模型训练提供了大规模、高质量的数据基础。
意义：解决了高质量、复杂长上下文推理数据稀缺的问题，是提升模型长距离推理能力的关键。

2. 用于长上下文训练的稳定强化学习

创新点：引入了任务平衡采样与任务特定优势估计来缓解奖励偏差，并提出了自适应熵控制策略优化（AEPO）来动态调整探索-利用权衡。
区别/改进：克服了长上下文强化学习中的关键不稳定性问题，使得在长度逐步增加的序列上进行稳定训练成为可能。
意义：是模型成功训练的关键，确保了在长序列上训练的策略能够稳定收敛并提升性能。

3. 用于超长上下文的记忆增强架构

创新点：开发了一个记忆管理框架，包含多阶段融合强化学习训练，将单次推理与基于记忆的迭代处理无缝集成。
区别/改进：解决了即使扩展的上下文窗口也无法容纳任意长序列的问题，能够处理超过400万tokens的任务。
意义：使模型能够处理超长上下文任务，显著扩展了模型的应用边界，特别是在需要整合海量信息的场景中。

4. Token级策略梯度损失与KL正则化移除

创新点：通过归一化组内每个token的贡献，确保高质量长响应中有价值的token学习信号不被稀释，同时有效惩罚低质量输出中的不良模式。此外，根据近期研究移除了KL正则化以改善探索并加速收敛。
区别/改进：增强了训练稳定性和实际性能，避免了学习信号的不均衡分配，并简化了目标函数，提高了训练效率。
意义：提高了策略梯度方法的鲁棒性和效率，特别是在处理长序列生成任务时，并促进了策略的更快收敛和更好的探索性能。

5. 带规划机制的记忆智能体

创新点：将阅读理解任务重构为序列决策过程，通过分解查询为核心问题和格式指令，并在处理每个文档块时更新记忆并生成导航计划，以指导后续块的信息提取。
区别/改进：通过递归机制将全局上下文折叠为紧凑表示，并主动规划推理路径，提升了超长上下文处理能力。
意义：使得模型能够有效处理计算上不可行的全注意力机制的超长上下文，显著扩展了推理能力。

3️⃣ 主要结果与价值

结果亮点

QwenLong-L1.5-30B-A3B在多个长文本基准测试（如MRCR、CorpusQA、DocMath、LongBench系列等）上取得了显著性能提升，平均超越其基线模型（Qwen3-30B-A3B-Thinking）9.90分。
在超长任务上，记忆-智能体框架带来了9.48分的提升，证明了其在处理远超物理上下文窗口（如超过400万tokens）任务时的有效性。
模型在科学推理、记忆工具使用和扩展对话等通用领域也观察到了性能改进，表明获得的长上下文推理能力具有泛化性。
与DeepSeek-R1、Gemini-2.5-Pro等先进模型相比，QwenLong-L1.5取得了与之相当的性能。

实际价值

为开发具备卓越长上下文理解和推理能力的大语言模型提供了一个系统性、可复现的完整后训练框架，解决了该领域的关键瓶颈。
模型能够处理需要整合分散在超长文档中多处证据并进行多步逻辑推断的复杂任务，适用于法律文档分析、长篇学术文献综述、长代码库理解等场景。
记忆增强架构使模型能够处理远超传统上下文窗口限制的海量信息输入，为构建能够与超长文档（如整本书、大型项目代码）进行深度交互的AI助手奠定了基础。
通过高质量数据合成和稳定训练策略，为社区提供了提升现有模型长文本能力的有效方法论。

4️⃣ 术语表

QwenLong-L1.5：本文提出的模型，基于Qwen3-30B-A3B-Thinking构建，通过系统性的后训练创新实现卓越的长上下文推理能力，能通过记忆机制处理超出物理窗口的长输入任务。
自适应熵控制策略优化 (AEPO)：一种动态调整探索-利用权衡的策略优化方法，用于稳定长上下文强化学习训练，使模型能够持续训练长度逐渐增加的序列。
多跳推理：一种推理过程，需要模型整合分散在长上下文不同位置的多个证据片段，并进行多步逻辑推断才能得出答案。
记忆智能体 (Memory Agent)：一种用于处理超长上下文的框架，通过序列记忆处理和规划机制来更新记忆并生成导航计划，以支持推理任务。
组相对策略优化 (GRPO)：一种基于组相对优势的策略优化方法，用于长上下文输入的强化学习优化，避免使用单独的价值网络。
轨迹 (τ_i)：在强化学习训练中，指模型处理一个样本所经历的一系列动作序列，包括每个文本块的记忆更新、导航计划以及最终答案。
LongBench：一个用于评估大型语言模型长文本理解能力的基准测试套件，包含多个子任务，如LongBench-V1-QA和LongBench-V2。
准确率 (Accuracy %)：模型在给定任务上预测正确的样本比例百分比，是评估模型性能的核心指标。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 长上下文数据合成流水线

2. 用于长上下文训练的稳定强化学习

3. 用于超长上下文的记忆增强架构

4. Token级策略梯度损失与KL正则化移除

5. 带规划机制的记忆智能体

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 长上下文数据合成流水线

2. 用于长上下文训练的稳定强化学习

3. 用于超长上下文的记忆增强架构

4. Token级策略梯度损失与KL正则化移除

5. 带规划机制的记忆智能体

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要