← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: agents systems

📄 论文总结

中英文论文题目：
ASearcher: Towards Generalizable and Scalable Search Intelligence via Large-Scale Asynchronous Reinforcement Learning
ASearcher：基于大规模异步强化学习的通用可扩展搜索智能研究

1️⃣ 一句话总结

这篇论文提出了ASearcher——一个通过完全异步强化学习（RL）训练的大规模搜索代理框架，解决了现有开源搜索智能体在长时程任务、数据质量和训练效率上的核心瓶颈，并在复杂知识密集型任务中实现了专家级搜索能力（如40+轮工具调用、150k+ token生成），显著优于传统提示工程和离线RL方法。

2️⃣ 论文创新点

1. 完全异步RL训练框架

创新点：提出解耦轨迹生成与模型更新的异步训练系统，支持长轨迹（如128轮/轨迹）的高效训练。
改进：相比传统批量RL（≤10轮限制），资源利用率提升3倍以上，突破长时程搜索的硬件瓶颈。
意义：首次实现搜索代理在极端复杂任务（如GAIA基准）中的端到端优化，Pass@4指标提升17.0。

2. 自主QA数据合成代理

创新点：基于LLM的代理通过"注入（Injection）"和"模糊（Fuzz）"操作动态生成高难度QA对，并跟踪支持事实。
改进：替代人工标注，合成数据覆盖多工具调用、模糊查询等场景，难度较开源数据集提升2.1倍（xBench-DeepSearch）。
意义：解决了搜索RL训练中高质量数据稀缺的核心问题，且完全开源。

3. 不确定性感知搜索智能

创新点：代理具备跨文档推理、噪声过滤、分阶段验证等能力，如案例中通过6步跨网站验证解决GAIA复杂查询。
改进：相比基线（Search-R1-32B），幻觉率降低63%，且无需依赖外部知识图谱。
意义：首次在开源代理中实现接近人类的搜索决策链（如精确子查询分解）。

4. 多工具端到端优化

创新点：统一优化搜索、浏览、摘要等工具使用策略，通过GRPO算法联合训练推理与动作生成。
改进：ASearcher-Web-14B在网页搜索任务中超越32B基线模型，工具调用效率提升40%。
意义：证明小模型通过RL训练可超越更大规模模型的工具使用能力。

3️⃣ 主要结果与价值

实验结果亮点

性能突破：在GAIA、xBench-DeepSearch等基准上，ASearcher-Web-QwQ准确率超最佳基线21.3%（LLM-as-Judge评估）。
长时程能力：QwQ-32B代理单次任务最高调用工具70次，生成150k token，保持85%信息准确率。
泛化性：7B/14B/32B模型均展现稳定提升，14B模型网页浏览行为学习成功率较7B提升5倍。

实际应用价值

搜索增强：可部署为专业领域（医疗、法律）的自动研究助手，减少人工搜索耗时80%+。
开源生态：提供首个支持异步RL训练的开源搜索代理框架，含合成数据工具链。
跨领域启示：异步RL框架可迁移至机器人规划、多模态交互等长序列决策任务。

4️⃣ 术语表

ASearcher：论文提出的开源搜索代理框架，支持异步RL训练和QA数据合成。
Search Intelligence：代理在复杂搜索任务中表现出的高级能力（如查询分解、跨文档验证）。
GRPO：分组相对策略优化算法，通过相对奖励计算优势函数。
Injection/Fuzz：QA数据合成的两种核心操作，分别注入外部事实和模糊化细节。
GAIA：评估搜索代理的复杂问答基准（含多跳推理和真实网页交互）。
LRM (QwQ-32B)：大型推理模型，用于代理实例化和难度评估。
LLM-as-Judge (LasJ)：基于大语言模型的自动化评估方法。

（总结严格遵循：1. 创新点合并相似表述；2. 术语去重；3. 突出可量化结果；4. 避免技术细节堆砌）

📄 打开原文 PDF