📄 论文总结
智能体持续预训练:构建强大智能体基础模型的新范式
Agentic Continual Pre-training: A New Paradigm for Building Powerful Agent Foundation Models
1️⃣ 一句话总结
本文提出了Agentic Continual Pre-training (Agentic CPT)方法,通过在预训练和微调之间引入专门的智能体能力训练阶段,开发出AgentFounder模型,在多个基准测试中达到最先进性能,为构建强大的智能体基础模型提供了新途径。
2️⃣ 论文创新点
1. Agentic Continual Pre-training (Agentic CPT)
- 创新点是什么:在传统预训练和微调之间新增的训练阶段,专注于培养智能体的工具使用和多步推理等能力
- 与已有方法的区别/改进:解决了通用基础模型缺乏智能体归纳偏置的问题,避免了微调中能力与对齐的优化冲突
- 为什么有意义:为构建强大的智能体基础模型提供了新范式,显著提升了智能体在复杂任务中的表现
2. Agentic Alignment
- 创新点是什么:扩展传统对齐概念,要求语言模型在动态环境中保持与人类专家演示行为的一致性
- 与已有方法的区别/改进:超越了静态交互模式,涵盖了推理链、工具调用和环境变化的适应性响应
- 为什么有意义:为深度研究智能体的发展提供了理论基础和评估标准
3. 两阶段训练策略
- 创新点是什么:渐进式训练方法,第一阶段使用FAS数据和短HAS数据(32K上下文),第二阶段使用高质量HAS数据(128K上下文)
- 与已有方法的区别/改进:高效吸收合成智能体数据,支持大规模离线数据生成
- 为什么有意义:提升模型探索和决策能力,支持大规模离线数据生成
4. First-order Action Synthesis (FAS)
- 创新点是什么:无监督信号的智能体数据合成方法,依赖多样化数据源,包括上下文场景构建、规划动作和推理动作的合成
- 与已有方法的区别/改进:无需监督信号,仅通过数据源即可合成智能体行为数据,降低了数据收集的依赖
- 为什么有意义:为智能体能力训练提供可扩展且多样化的数据来源,增强模型的泛化能力和应用广度
5. High-order Action Synthesis (HAS)
- 创新点是什么:通过步骤级扩展和多选项决策过程增强智能体推理能力的方法
- 与已有方法的区别/改进:从轨迹再现转变为基于决策的推理,扩展每个步骤的推理和动作选项集
- 为什么有意义:防止对特定轨迹模式的过拟合,显著提高智能体学习过程的样本效率
3️⃣ 主要结果与价值
实验结果亮点
- AgentFounder-30B在多个基准测试中全面超越现有开源深度研究代理模型
- 在BrowseComp-en上比DeepSeek-V3.1提升10.0%,在GAIA上达到72.8%的最高单代理准确率
- 在场景化网络搜索基准上,HLE首次突破30分达到31.5%,Academic Browse达到75.3%
- 两阶段训练相比单阶段训练在多个基准上带来平均Pass@1提升3.3%和Pass@3提升3.7%
- 模型参数从1B增加到30B时准确率从20.4%提升到48.9%,显示方法能更高效利用模型容量
实际应用价值
- 提供了预对齐的智能体基础模型以支持下游微调,增强模型智能体行为探索能力
- 支持大规模离线数据生成,降低商业API调用成本,提高数据生成效率
- 使大型语言模型具备跨领域的通用工具使用和多步推理能力,提升其在多样化应用场景中的适应性
- 为构建高性能深度研究代理提供基础,具备作为通用代理的潜力
4️⃣ 术语表
- Agentic CPT:Agentic Continual Pre-training,智能体持续预训练方法,用于实现智能体对齐
- AgentFounder:通过Agentic CPT和后训练获得的深度研究智能体模型,基于Qwen3系列
- FAS:First-order Action Synthesis,一阶动作合成,无监督信号的智能体数据合成方法
- HAS:High-order Action Synthesis,高阶动作合成,通过步骤级扩展和多选项决策增强智能体推理的方法
- Agentic Alignment:智能体对齐,要求语言模型在动态环境中保持与人类专家演示行为的一致性的扩展对齐概念
- BrowseComp:评估网络搜索能力的基准测试,包含英文和中文版本
- GAIA:通用人工智能助手基准测试,包含文本子集的103个问题
- Continual Pre-training (CPT):持续预训练,在初始预训练后继续无监督训练以显著增强模型性能的方法