📄 论文总结
ReSum:通过周期性上下文摘要实现无限网络探索的新范式
ReSum: A New Paradigm for Unlimited Web Exploration via Periodic Context Summarization
1️⃣ 一句话总结
ReSum是一种通过周期性总结对话历史来压缩上下文的新范式,结合专用摘要工具ReSumTool-30B和强化学习算法ReSum-GRPO,有效解决了大语言模型在长轨迹网络探索中的上下文窗口限制问题,并在多个基准测试中显著优于ReAct等现有方法。
2️⃣ 论文创新点
1. ReSum推理范式
- 创新点是什么:一种新型网络智能体探索模式,通过周期性调用摘要工具压缩对话历史为紧凑的推理状态,从而绕过上下文长度限制
- 与已有方法的区别/改进:解决了ReAct范式因不断追加交互内容而快速耗尽上下文预算的问题,避免了简单截断导致的信息丢失
- 为什么有意义:使智能体能够进行无限探索,维持对先前发现的感知,而无需受上下文长度限制
2. ReSumTool-30B专用摘要模型
- 创新点是什么:通过监督微调Qwen3 30B-A3B-Thinking模型得到的专门针对目标导向摘要的30B参数模型
- 与已有方法的区别/改进:解决了大模型在摘要任务上API成本高和部署开销大的问题,同时保留了强大的目标导向摘要能力
- 为什么有意义:提供了一个实际可部署的高效摘要工具,使目标导向的摘要能力能够在资源受限的环境中应用
3. ReSum-GRPO强化学习算法
- 创新点是什么:专门为ReSum范式定制的强化学习方法,通过轨迹分割和统一的轨迹级奖励信号来训练智能体适应基于摘要的推理
- 与已有方法的区别/改进:避免了收集昂贵专家轨迹的需要,允许智能体通过自我进化适应新范式,同时保留其固有的推理能力
- 为什么有意义:使标准智能体能够有效处理ReSum产生的分布外查询,是实现长轨迹交互和压缩状态推理的关键
3️⃣ 主要结果与价值
实验结果亮点
- 在BrowseComp-en基准上达到16.0% Pass@1,超越Claude-4-Sonnet和Kimi-K2等SOTA模型
- 在BrowseComp-zh基准上达到13.7% Pass@1,所有代理和基准测试中均优于ReAct基线
- 仅使用1K+样本就能达到与使用10K+样本训练的智能体相当的性能,训练效率显著提升
实际应用价值
- 资源成本仅适度增加(约2倍),但实现了实质性性能改进,在合理资源成本范围内实现性能提升
- 保持了与现有智能体的无缝兼容性,便于实际部署和应用
- 摘要工具性能常匹配或超过更大模型(如Qwen3-235B和DeepSeek-R1-671B),同时保持部署效率
4️⃣ 术语表
- ReSum:一种通过周期性上下文摘要来支持网络代理进行无限探索的新范式,通过总结历史交互实现上下文压缩
- ReAct:广泛采用的智能体工作流,执行思考、行动、观察的迭代循环,采用追加全部历史的上下文管理策略
- ReSumTool-30B:通过监督微调Qwen3 30B-A3B-Thinking模型得到的、专门用于目标导向摘要的30B参数模型
- ReSum-GRPO:针对ReSum范式的强化学习方法,通过轨迹分割和统一的轨迹级奖励来训练智能体适应摘要条件推理
- BrowseComp-en:网页浏览能力评估基准,用于评估智能体的网页交互性能
- BrowseComp-zh:中文网页浏览能力评估基准,用于评估智能体的中文网页交互性能
- Pass@1:评估指标,表示在所有测试样本上的平均通过率,衡量一次尝试中成功完成任务的概率
- π_sum:总结工具,用于生成对话历史的摘要
- Web Agent:能够自动化执行Web导航和交互任务的AI智能体
- GAIA:General AI Assistants的基准测试,用于评估AI助手的综合能力