📄 论文总结
DeepMiner:通过高难度训练任务和动态上下文窗口解决多轮智能体深度推理能力不足的框架 / DeepMiner: A Framework for Enhancing Multi-Turn Agent Deep Reasoning through Challenging Training Tasks and Dynamic Context Management
1️⃣ 一句话总结
DeepMiner框架通过反向构建高难度可验证问答对和动态滑动窗口上下文管理策略,解决了多轮智能体深度推理中的任务复杂度不足和上下文爆炸问题,在复杂信息检索任务中实现了突破性性能。
2️⃣ 论文创新点
1. 反向构建方法
- 创新点:从真实网络源生成复杂但可验证的问答对,通过实体驱动信息收集、多源问题生成和严格质量过滤三个阶段创建需要跨多个真实信息源进行扩展推理的任务
- 区别/改进:确保训练数据的挑战性和可靠性,超越传统多跳数据集如HotpotQA
- 意义:为多轮推理场景注入认知能力,激发模型在一般长视野多轮场景中执行深度认知行为
2. 动态滑动窗口上下文管理
- 创新点:设计了动态上下文管理策略,通过窗口大小W和滑动步长S参数控制工具响应的可见性,使用占位符替换早期工具响应
- 区别/改进:消除对外部摘要模型的依赖,在32k上下文长度内能维持100次工具调用的持续交互,解决了基于摘要方法的信息丢失和优化盲点问题
- 意义:实现从有限上下文的浅层推理到无界深度探索的根本性转变,支持长序列推理
3. 训练测试一致性机制
- 创新点:将完整轨迹分解为多个训练序列,反映滑动窗口推理时的动态上下文状态,通过掩码确保每个助手响应只训练一次
- 区别/改进:通过掩码确保每个助手响应只训练一次,避免优化冲突
- 意义:保持训练与部署场景的一致性,支持任意长交互序列的可扩展优化
4. 滑动窗口优势传播
- 创新点:将轨迹分解为多个训练序列,并将轨迹级优势信号均匀传播到所有派生序列
- 区别/改进:解决了滑动窗口处理带来的序列级训练需求,确保每个序列获得相同的优势信号
- 意义:在动态上下文条件下保持有效的策略学习,同时支持推理期间遇到的上下文管理
3️⃣ 主要结果与价值
结果亮点
- DeepMiner-32B-RL在BrowseComp-en上达到33.5%准确率,大幅超越所有先前开源智能体,甚至超过约20倍的DeepSeek-V3.1-671B模型
- 从监督微调到强化学习的训练过程在所有基准上均显示出持续改进,RL优化相比SFT模型在BrowseComp-en上提升12.3个百分点
- 滑动窗口上下文管理方法在仅32k上下文长度下达到33.3%准确率,优于需要128k上下文的其他方法
- 训练动态显示轨迹长度和奖励持续增长,反映模型在多步推理和复杂搜索策略能力上的提升
实际价值
- 实现了超过100轮交互的长序列推理能力,为构建能够处理持续长程交互的研究智能体奠定基础
- 提供更高效的上下文利用效率,增强长视野推理能力,支持复杂深度研究任务
- 验证了精心设计的数据构造方法对复杂网络代理任务的必要性,为类似研究提供参考
4️⃣ 术语表
- DeepMiner:一种通过高难度训练任务和动态上下文窗口来激发多轮智能体深度推理能力的新型框架,基于Qwen3-32B的深度研究代理系统
- RLVR:强化学习与可验证奖励,用于在数学推理和代码生成中实现认知行为的训练方法
- BrowseComp:复杂信息检索任务数据集,用于分析模型在上下文限制下的表现,包括BrowseComp-en和BrowseComp-zh
- 滑动窗口:一种上下文管理技术,通过动态调整保留的上下文内容来优化资源使用
- Group Relative Policy Optimization:采用的强化学习算法,适应滑动窗口上下文管理
- VERL框架:用于实现强化学习训练的技术框架
- Fetch:一个网页内容获取工具,给定URL后检索网页内容,通过实现分页浏览来模拟人类网页导航,允许模型评估初始内容并决定是否继续阅读或退出
- Find:一个网页内关键词搜索工具,用于长网页,允许模型定位相关信息部分及其周围上下文,然后决定哪些部分需要详细检查