← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm systems

📄 论文总结

中英文论文题目：
WideSearch: A Benchmark for Evaluating Large-Scale Information Gathering Capabilities of LLM-Based Search Agents
WideSearch：基于大语言模型的搜索代理大规模信息收集能力评估基准

1️⃣ 一句话总结

这篇论文提出了WideSearch——首个专门评估大语言模型（LLM）搜索代理在大规模结构化信息收集任务中性能的基准，通过实验揭示了当前模型的严重缺陷（成功率仅5% vs. 人类100%），并提出了多智能体协作等改进方向，填补了现有基准在“广域信息保真度”评估上的空白。

2️⃣ 论文创新点

1. 首创广域信息收集评估基准

创新点：设计WideSearch基准，包含200个跨领域双语任务，强调原子信息完整性（如多实体表格填充）而非单条事实检索。
区别：不同于DeepSearch等垂直深度检索基准，首次聚焦“信息规模压倒性”场景（如平均需查44页网页/任务）。
意义：为金融分析、求职匹配等现实需求提供标准化测试工具。

2. 抗偏性任务设计方法论

创新点：提出六项核心原则（如时空不变性、工具依赖性）和五阶段质量控制流程（参数化知识过滤+难度修剪）。
区别：确保任务必须通过主动搜索完成，避免LLM依赖内部知识“作弊”。
意义：增强基准的长期有效性和可验证性。

3. 混合自动化评估框架

创新点：结合表格对齐规则（主键匹配）与LLM语义裁判（GPT-4.1），实现97.8%人工一致性评估。
区别：传统基准依赖人工评分，本方法支持高效可扩展的自动化评测。
意义：为大规模搜索任务评估提供新范式。

4. 多智能体协作潜力验证

创新点：实验证明多智能体框架（并行搜索+交叉验证）显著优于单智能体模式。
区别：突破当前模型“规划不完整”“缺乏反思”等瓶颈。
意义：为未来搜索代理架构指明方向。

3️⃣ 主要结果与价值

实验结果亮点

性能鸿沟：顶级模型（如Claude Sonnet 4）成功率仅5%，远低于人类单代理模式（20%）和多代理模式（100%）。
多智能体优势：多代理框架使F1分数提升30%-50%，尤其在医疗、法律等高复杂度领域。
核心缺陷：70%失败源于原子信息不完整（如漏填表格字段），而非单条事实错误。

实际应用价值

评估工具：为AI助手在金融分析、市场调研等数据密集型场景的可靠性提供量化标准。
技术改进：揭示搜索代理需增强问题分解（如生成子任务链）和证据验证能力。
跨领域影响：方法论可迁移至NLP、VLM等需外部知识验证的任务。

4️⃣ 术语表

WideSearch：评估LLM搜索代理广域信息收集能力的基准，强调多实体、多属性表格填充。
LLM-as-a-judge：利用大语言模型（如GPT-4.1）对语义一致性进行自动化评分的方法。
参数化知识过滤：通过非工具增强的LLM测试问题，确保任务必须依赖外部搜索。
Row-level F1/Item-level F1：分别以表格行和单元格为单位的评估指标，衡量结构化输出精度。
多智能体框架：通过任务分解与并行子智能体协作提升搜索效率的架构。

（总结完毕）

📄 打开原文 PDF