Reinforcement Learning for Self-Improving Agent with Skill Library

📄 Abstract - Reinforcement Learning for Self-Improving Agent with Skill Library

Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.

SAGE：一种基于强化学习的技能库智能体自我进化框架 / Reinforcement Learning for Self-Improving Agent with Skill Library

1️⃣ 一句话总结

本文提出了一种名为SAGE的新型强化学习框架，通过顺序部署和技能集成奖励机制，使基于大语言模型的智能体能够在新环境中持续学习、积累和复用技能，从而实现自我改进和高效适应。

2️⃣ 论文创新点

1. SAGE强化学习框架

创新点：一种专为技能库智能体设计的强化学习框架，扩展自GRPO算法，旨在通过任务链训练和专门的奖励机制，系统性地整合技能库的使用与学习。
区别/改进：克服了现有方法（如提示工程构建技能库）在一致性、适应性和长视野任务学习方面的局限性，实现了任务执行与技能生成的同步进行。
意义：为LLM智能体提供了持续学习和适应新环境的能力，是实现更通用、高效智能体的关键一步。

2. 顺序部署机制

创新点：SAGE框架的核心组件，让智能体在一系列共享相似场景的连续任务链上进行迭代部署。
区别/改进：使得早期任务中生成的技能能够自动累积到技能库中，并可用于后续任务，促进了经验的持续利用和端到端的强化学习。
意义：实现了技能在任务间的自然迁移和积累，是支撑智能体持续学习机制的核心。

3. 技能集成奖励机制

创新点：在基于结果的可验证奖励之外，引入的额外奖励机制，专门用于激励智能体在任务链中成功生成技能（第一个任务）和成功使用技能（后续任务）。
区别/改进：超越了单纯依赖任务完成结果的基线强化学习奖励。通过奖励成功的技能生成与使用行为，并惩罚不生成代码的响应，引导智能体更积极地与技能库互动。
意义：将技能库的使用直接纳入奖励函数，为智能体学习生成和复用有用技能提供了明确的优化信号，是驱动技能库演化的关键激励因素。

4. 技能库智能体统一交互框架

创新点：基于CodeAct框架构建，支持智能体在与API环境交互时，生成可保存和调用的程序化函数作为技能，并采用统一格式处理任务解决和技能生成。
区别/改进：不同于以往在任务完成后才定义可复用技能的方法，实现了任务执行与技能生成的同步进行，解决了长视野任务中额外技能生成过程增加上下文长度、影响学习效果的问题。
意义：增强了智能体的适应性和技能复用能力，为自我改进提供了结构化基础，并为强化学习过程提供了更一致、更高效的基础。

3️⃣ 主要结果与价值

结果亮点

在AppWorld数据集上的实验表明，SAGE框架在场景目标完成率上比基线GRPO提升了8.9%，并显著降低了59%的令牌消耗和交互步骤。
消融实验验证了技能库、技能集成奖励和精心设计的技能检索机制（如Query Embedding）对提升任务成功率、效率和模型泛化能力的关键作用。
采用专家经验数据集进行监督微调初始化，显著优于其他初始化方法，是达到最优性能的关键，证明了高质量专家轨迹对引导智能体有效使用技能库的重要性。

实际价值

为基于大语言模型的智能体提供了一种系统化的自我改进路径，使其能够在部署后持续适应新环境和复杂任务，减少对人工提示工程的依赖。
通过技能复用显著提升了智能体完成复杂任务的效率和资源利用率，降低了计算成本，使其更适用于实际应用场景。
提出的框架和评估方法为未来开发更通用、更自主的AI助手提供了重要的技术基础和评估基准。

4️⃣ 术语表

SAGE：Skill Augmented GRPO for self-Evolution，本文提出的核心强化学习框架，结合了顺序部署和技能集成奖励机制，用于训练技能库智能体实现自我进化。
AppWorld：本文实验中使用的一个评估数据集或环境，包含750个按场景组织的任务，用于测试智能体通过API文档查找、API调用和逻辑编程解决复杂实际任务的能力，适合形成任务链。
GRPO：Group Relative Policy Optimization，一种强化学习算法，是SAGE框架构建的基础，用于从旧策略采样输出并优化策略。
顺序部署：SAGE框架的关键机制，指让代理在共享同一场景的连续任务链中顺序执行，使得前期任务生成的技能能在后续任务中使用，从而实现端到端强化学习和技能积累。
技能集成奖励：SAGE框架中使用的一种奖励函数设计，在任务完成奖励基础上，额外奖励在任务链中成功生成技能和成功使用技能的行为，并惩罚不生成代码的响应。
场景目标完成率：评估指标，计算一个场景中所有三个任务均成功完成的比例，用于衡量智能体在相关多任务场景中的整体性能。
任务完成率：评估指标，计算智能体完成任务目标的比例。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. SAGE强化学习框架

2. 顺序部署机制

3. 技能集成奖励机制

4. 技能库智能体统一交互框架

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. SAGE强化学习框架

2. 顺序部署机制

3. 技能集成奖励机制

4. 技能库智能体统一交互框架

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要