🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
HierSearch: A Hierarchical Agentic Deep Search Framework for Multi-Knowledge Source Scenarios
HierSearch:面向多知识源场景的分层智能体深度搜索框架
1️⃣ 一句话总结
HierSearch提出了一种基于分层强化学习(HRL)的智能体框架,通过协调本地和网络搜索代理动态整合多知识源信息,解决了传统深度搜索方法在跨知识源检索中的效率低、错误传播问题,实验证明其在复杂问答任务中显著优于现有方法(如MuSiQue数据集上EM分数达53.00)。
2️⃣ 论文创新点
1. 分层智能体协作架构
- 创新点:将搜索任务分解为低层代理(本地/网络搜索)和高层规划代理,通过HRL实现动态分工。
- 改进:传统RAG或单一代理方法无法灵活调用多知识源,而HierSearch通过分层设计降低跨源搜索复杂度。
- 意义:首次将HRL应用于多知识源深度搜索,支持并行检索与冲突消解(如企业需同时访问本地专业库和网络实时数据)。
2. 知识精炼器设计
- 创新点:通过两步筛选(局部贡献+全局贡献评分)过滤低层代理返回的冗余或错误证据。
- 改进:传统方法直接传递原始搜索结果,易传播幻觉;精炼器通过嵌入相似度量化证据价值,保留关键信息。
- 意义:减少高层代理的噪声干扰,提升答案准确性(消融实验显示精炼器贡献+8.2% F1)。
3. 两阶段HRL训练策略
- 创新点:先独立训练低层代理掌握领域工具(如本地图谱检索),再联合训练高层代理优化资源调度。
- 改进:扁平强化学习训练效率低且难以收敛,分层训练显著提升工具调用灵活性(训练速度提升3.1倍)。
- 意义:为复杂多工具协同任务提供可扩展的训练范式。
4. 动态知识源选择机制
- 创新点:根据问题特性自动选择知识源(如本地库处理专业问题,网络补充时效信息)。
- 改进:静态RAG固定工作流,而HierSearch通过奖励函数(混合F1分数+工具探索率)动态决策。
- 意义:平衡搜索成本与效果(网络调用减少37%的同时保持95%+召回率)。
3️⃣ 主要结果与价值
实验结果亮点
- 性能优势:在MuSiQue、OmniEval等6个数据集上平均EM分数超基线方法(如DeepResearcher)12.3%,最高达53.00 EM。
- 效率优化:相比并行搜索基线(HM-RAG),推理延迟降低22%,且网络搜索调用次数减少40%。
- 消融验证:分层架构(HRL)和知识精炼器分别贡献+15.6%和+8.2%的F1分数提升。
实际应用价值
- 企业搜索场景:支持本地知识库(如金融/医疗专有数据)与公开网络信息的协同检索,提升决策可靠性。
- 跨领域适配性:框架可扩展至不同领域(实验涵盖通用、生物医学、金融),仅需调整本地知识库。
- 部署可行性:基于标准强化学习框架(VERL+GRPO算法)和开源模型(Qwen2.5-Instruct),硬件需求适中(8-GPU集群)。
4️⃣ 术语表
- HierSearch:论文提出的分层智能体框架,整合本地与网络搜索工具。
- HRL(Hierarchical RL):分层强化学习,用于训练多级代理协作。
- LRMs(Large Reasoning Models):如DeepSeek-R1等具备复杂推理能力的大模型。
- RAG(Retrieval-Augmented Generation):检索增强生成,传统单知识源检索方法。
- GRPO算法:DeepSeekR1提出的强化学习优化算法,用于代理训练。
- 知识精炼器(Knowledge Refiner):过滤低层代理证据的两步筛选模块。
- MuSiQue/OmniEval:多跳问答和开放域评估基准数据集。
(总结基于10个chunk的整合,剔除重复信息并合并同类创新点,突出框架核心贡献与实验结果。)