📄 论文总结
InfoSeek:用于合成复杂深度研究任务的可扩展框架
InfoSeek: A Scalable Framework for Synthesizing Complex Deep Research Tasks
1️⃣ 一句话总结
InfoSeek是一个创新的双代理框架,通过将深度研究任务形式化为分层约束满足问题(HCSP),并递归构建研究树来自动生成高质量的自然语言问答数据集,显著提升了模型在复杂推理任务上的性能。
2️⃣ 论文创新点
1. 分层约束满足问题(HCSP)形式化
- 创新点是什么:将深度研究任务定义为需要满足分层化相互依赖约束的问题,超越了传统的多跳问题和平坦约束满足问题
- 与已有方法的区别/改进:提供了更准确的任务形式化方法,更好地捕捉深度研究的复杂性
- 为什么有意义:为深度研究任务提供了理论基础,支持可控复杂度的分层问题生成
2. 双智能体协作框架
- 创新点是什么:使用Planner和Browser两个智能体协同构建研究树,Planner负责全局规划和目标选择,Browser负责执行具体操作和验证
- 与已有方法的区别/改进:通过分工协作实现了自动化和可扩展的数据生成,避免了传统方法中单一智能体的局限性
- 为什么有意义:提高了数据生成的效率和质量,支持复杂层次结构的问题构建
3. 四步动作机制
- 创新点是什么:定义了初始化、模糊约束、扩展树和终止生成四个核心动作,逐步构建研究树并确保结构合理
- 与已有方法的区别/改进:通过分步操作控制了树的生长过程,避免了过确定和欠确定问题
- 为什么有意义:增强了数据生成的可控性和结构性,适用于多层次推理任务
3️⃣ 主要结果与价值
实验结果亮点
- 在BrowseComp-Plus基准测试中表现优异,3B模型性能超越32B模型
- 在单跳和多跳问答基准测试中优于所有基线方法,包括RAG方法和近期代理搜索方法
- InfoSeeker-3B以16.5%的准确率超越了多个闭源系统(如Gemini 2.5 Flash、Sonnet 4、GPT-4.1)和开源基线
实际应用价值
- 支持大规模数据集生成(超过50K训练样本),并提供推理轨迹和元信息
- 实现了在紧凑LLM中扩展深度研究能力,模型泛化效果更好
- 为训练和评估深度研究智能体提供可扩展基础
4️⃣ 术语表
- InfoSeek:用于合成复杂深度研究任务的可扩展框架,使用双代理系统递归构建研究树并生成自然语言问题
- HCSP:分层约束满足问题,用于形式化深度研究任务的框架,要求通过满足分层化的相互依赖约束来逐步揭示最终答案
- 研究树:由知识实体和事实构成的树状结构,顶点表示实体,边表示关系,根节点表示最终答案
- InfoSeeker:一种代理搜索模型,在单跳/多跳QA和BrowseComp-Plus基准测试中表现优异
- BrowseComp-Plus:用于评估深度研究能力的复杂推理任务基准,包含830个问题和100K网页语料,强调开放式、搜索密集型推理
- Refiner Agent:InfoSeeker框架中的专用组件,负责对检索结果进行提炼,提取关键证据并生成简洁的摘要
- GRPO:采用PPO裁剪目标函数和KL散度惩罚的强化学习算法,无需价值模型计算优势