SAGE:一种基于强化学习的技能库智能体自我进化框架 / Reinforcement Learning for Self-Improving Agent with Skill Library
1️⃣ 一句话总结
本文提出了一种名为SAGE的新型强化学习框架,通过顺序部署和技能集成奖励机制,使基于大语言模型的智能体能够在新环境中持续学习、积累和复用技能,从而实现自我改进和高效适应。
2️⃣ 论文创新点
1. SAGE强化学习框架
- 创新点:一种专为技能库智能体设计的强化学习框架,扩展自GRPO算法,旨在通过任务链训练和专门的奖励机制,系统性地整合技能库的使用与学习。
- 区别/改进:克服了现有方法(如提示工程构建技能库)在一致性、适应性和长视野任务学习方面的局限性,实现了任务执行与技能生成的同步进行。
- 意义:为LLM智能体提供了持续学习和适应新环境的能力,是实现更通用、高效智能体的关键一步。
2. 顺序部署机制
- 创新点:SAGE框架的核心组件,让智能体在一系列共享相似场景的连续任务链上进行迭代部署。
- 区别/改进:使得早期任务中生成的技能能够自动累积到技能库中,并可用于后续任务,促进了经验的持续利用和端到端的强化学习。
- 意义:实现了技能在任务间的自然迁移和积累,是支撑智能体持续学习机制的核心。
3. 技能集成奖励机制
- 创新点:在基于结果的可验证奖励之外,引入的额外奖励机制,专门用于激励智能体在任务链中成功生成技能(第一个任务)和成功使用技能(后续任务)。
- 区别/改进:超越了单纯依赖任务完成结果的基线强化学习奖励。通过奖励成功的技能生成与使用行为,并惩罚不生成代码的响应,引导智能体更积极地与技能库互动。
- 意义:将技能库的使用直接纳入奖励函数,为智能体学习生成和复用有用技能提供了明确的优化信号,是驱动技能库演化的关键激励因素。
4. 技能库智能体统一交互框架
- 创新点:基于CodeAct框架构建,支持智能体在与API环境交互时,生成可保存和调用的程序化函数作为技能,并采用统一格式处理任务解决和技能生成。
- 区别/改进:不同于以往在任务完成后才定义可复用技能的方法,实现了任务执行与技能生成的同步进行,解决了长视野任务中额外技能生成过程增加上下文长度、影响学习效果的问题。
- 意义:增强了智能体的适应性和技能复用能力,为自我改进提供了结构化基础,并为强化学习过程提供了更一致、更高效的基础。
3️⃣ 主要结果与价值
结果亮点
- 在AppWorld数据集上的实验表明,SAGE框架在场景目标完成率上比基线GRPO提升了8.9%,并显著降低了59%的令牌消耗和交互步骤。
- 消融实验验证了技能库、技能集成奖励和精心设计的技能检索机制(如Query Embedding)对提升任务成功率、效率和模型泛化能力的关键作用。
- 采用专家经验数据集进行监督微调初始化,显著优于其他初始化方法,是达到最优性能的关键,证明了高质量专家轨迹对引导智能体有效使用技能库的重要性。
实际价值
- 为基于大语言模型的智能体提供了一种系统化的自我改进路径,使其能够在部署后持续适应新环境和复杂任务,减少对人工提示工程的依赖。
- 通过技能复用显著提升了智能体完成复杂任务的效率和资源利用率,降低了计算成本,使其更适用于实际应用场景。
- 提出的框架和评估方法为未来开发更通用、更自主的AI助手提供了重要的技术基础和评估基准。
4️⃣ 术语表
- SAGE:Skill Augmented GRPO for self-Evolution,本文提出的核心强化学习框架,结合了顺序部署和技能集成奖励机制,用于训练技能库智能体实现自我进化。
- AppWorld:本文实验中使用的一个评估数据集或环境,包含750个按场景组织的任务,用于测试智能体通过API文档查找、API调用和逻辑编程解决复杂实际任务的能力,适合形成任务链。
- GRPO:Group Relative Policy Optimization,一种强化学习算法,是SAGE框架构建的基础,用于从旧策略采样输出并优化策略。
- 顺序部署:SAGE框架的关键机制,指让代理在共享同一场景的连续任务链中顺序执行,使得前期任务生成的技能能在后续任务中使用,从而实现端到端强化学习和技能积累。
- 技能集成奖励:SAGE框架中使用的一种奖励函数设计,在任务完成奖励基础上,额外奖励在任务链中成功生成技能和成功使用技能的行为,并惩罚不生成代码的响应。
- 场景目标完成率:评估指标,计算一个场景中所有三个任务均成功完成的比例,用于衡量智能体在相关多任务场景中的整体性能。
- 任务完成率:评估指标,计算智能体完成任务目标的比例。