arXiv ID:
2510.20168
arXiv 提交日期: 2025-10-23
DeepWideSearch:在智能信息搜索中评估深度与广度的基准 / DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking
1️⃣ 一句话总结
这篇论文提出了首个专门评估智能信息搜索系统在深度推理和广度收集两方面综合能力的基准测试DeepWideSearch,发现当前最先进的系统成功率极低,揭示了现有架构在反思能力、知识依赖、检索充分性和上下文处理等方面的关键缺陷。