← 返回列表

菜单

🤖 系统
📄 Abstract - DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking
正在获取摘要...
顶级标签: agents
详细标签: information seeking agent evaluation reasoning benchmarks multi-step tasks search capabilities 或 搜索:

📄 论文总结

DeepWideSearch:评估智能体在信息搜索中的深度和宽度基准 / DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking


1️⃣ 一句话总结

该论文提出了首个专门评估智能体在信息搜索任务中整合深度推理和广度收集能力的基准测试,揭示了当前最先进智能体在此类复杂任务上的严重局限性,平均成功率仅为2.39%。


2️⃣ 论文创新点

1. DeepWideSearch基准

2. Deep2Wide转换方法

3. 三维评估指标体系


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF