🤖 系统
10-27 22:37
📄 论文总结
DeepWideSearch:评估智能体在信息搜索中的深度和宽度基准 / DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking
1️⃣ 一句话总结
该论文提出了首个专门评估智能体在信息搜索任务中整合深度推理和广度收集能力的基准测试,揭示了当前最先进智能体在此类复杂任务上的严重局限性,平均成功率仅为2.39%。
2️⃣ 论文创新点
1. DeepWideSearch基准
- 创新点:首个专门评估智能体在深度推理和广度信息收集能力整合的基准测试
- 区别/改进:通过转换现有数据集构建了220个问题,覆盖15个多样化领域,填补了现有基准在高深度高宽度任务评估上的空白
- 意义:揭示了当前智能体在深度和宽度搜索整合方面的严重不足,为未来研究提供方向
2. Deep2Wide转换方法
- 创新点:通过人工标注的三阶段流程将深度搜索数据集转换为深度和广度搜索问题
- 区别/改进:包括核心实体过滤、表模式定义和全面标注,解决了构建深度广度搜索实例的挑战
- 意义:有效利用现有资源构建高质量评估数据集,保持组合复杂性的同时确保数据质量
3. 三维评估指标体系
- 创新点:提出深度、广度和效率三个互补维度的评估框架,全面衡量智能体在信息搜索中的表现
- 区别/改进:相比传统单一维度评估,提供了更全面的性能衡量标准,包括Column-F1、核心实体准确率等多粒度指标
- 意义:为复杂信息搜索任务的系统评估提供了标准化框架
3️⃣ 主要结果与价值
结果亮点
- 最先进智能体在基准测试上的平均成功率仅为2.39%,突显了深度和宽度搜索整合的重大挑战
- Gemini 2.5 Pro表现最佳,在多项指标上领先,甚至超越了一些代理系统,展示了先进的推理能力
- 代理系统能显著提升基础LLM的核心实体识别准确率,但在列级精度上存在局限性
- Deep2Wide方法比Wide2Deep产生更具挑战性的数据,成功率极低但更能反映真实世界复杂性
实际价值
- 为真实世界应用如市场分析和商业发展提供关键评估标准
- 揭示了当前智能体架构在效率方面的不足,计算和运营开销巨大,缺乏可扩展性
- 识别了代理系统的四种关键失败模式,为改进代理架构提供了具体方向和设计启示
- 为优化智能体架构提供了实证依据,支持通过增加推理步骤来改善信息覆盖
4️⃣ 术语表
- DeepWideSearch:评估智能体在信息搜索中整合深度推理和广度收集能力的基准数据集,包含220个问题,覆盖15个领域
- 搜索宽度:衡量需要搜索的信息单元数量的维度
- Core Entity Accuracy:核心实体准确率,评估智能体识别核心实体的能力指标,反映深度搜索能力
- Column-F1:基于表格中唯一列的F1分数,用于评估深度推理中实体识别的精确性
- Deep2Wide:将深度搜索数据集转换为深度和广度搜索问题的数据构建方法
- Wide2Deep:将宽度搜索数据集转换为深度搜索问题的数据构建方法