← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: agents llm

📄 论文总结

中英文论文题目：AgentFly: Memory-Augmented LLM Agent for Continuous Adaptation without Fine-Tuning / AgentFly：基于记忆增强的大语言模型代理，实现无需微调的持续适应

1️⃣ 一句话总结

AgentFly 提出了一种无需微调底层大语言模型（LLM）的代理学习范式，通过记忆增强的在线强化学习和案例推理（CBR）实现持续自适应，在多个基准测试中显著提升了长时程任务和动态环境中的性能。

2️⃣ 论文创新点

1. 无需微调LLM的持续学习框架

创新点：通过冻结LLM参数并引入外部记忆（Case Bank）实现持续适应，避免了传统微调的高成本和不稳定性。
区别/改进：传统方法依赖参数更新或提示工程，而AgentFly结合规划-执行架构和非参数化记忆机制，实现更高效的在线学习。
意义：降低了LLM代理的部署门槛，支持动态环境中的快速适应。

2. Memory-augmented Markov Decision Process (M-MDP)

创新点：扩展标准MDP框架，引入记忆空间和案例检索策略（µ），支持从历史经验中学习。
区别/改进：相比静态MDP，M-MDP通过神经案例选择策略（基于软Q学习）动态优化动作决策。
意义：为LLM代理提供了形式化的持续学习理论框架。

3. 参数化与非参数化记忆的融合

创新点：设计三种内存模块（案例内存、子任务内存、工具内存），结合语义相似性检索（非参数化）和在线更新的Q函数（参数化）。
区别/改进：传统CBR仅依赖相似性检索，而AgentFly通过强化学习优化案例选择分布。
意义：提升了记忆机制的泛化能力和抗噪声性。

4. 规划-执行与工具协调机制

创新点：采用交替的规划-执行循环（Plan-and-Act），通过MCP协议协调多模态工具调用。
区别/改进：相比单步工具调用，支持长时程任务分解和动态推理。
意义：在复杂任务（如开放域QA）中减少幻觉并提高工具使用效率。

3️⃣ 主要结果与价值

实验结果亮点

性能提升：在GAIA、HLE等基准测试中达到SOTA，分布外任务泛化能力提升4.7~9.6绝对分。
效率优势：案例推理（CBR）仅需少量高质量案例（K=4）即可显著提升性能，优于少样本提示。
工具调用优化：在DeepResearcher任务中，F1分数提升显著，且工具调用次数更少。

实际应用价值

跨领域适用性：支持开放域QA、专业领域推理和多模态数据处理（如代码执行、数学计算）。
可部署性：无需微调LLM，仅需外部记忆存储和轻量级强化学习模块，适合实际场景快速迭代。
认知启发：借鉴人类记忆机制（如睡眠巩固、多巴胺驱动强化），为AI持续学习提供新思路。

4️⃣ 术语表

AgentFly：论文提出的框架，结合记忆增强和案例推理的LLM代理。
M-MDP：记忆增强的马尔可夫决策过程，扩展标准MDP以支持历史经验学习。
CBR (Case-Based Reasoning)：基于案例的推理，通过检索相似历史案例指导当前任务。
Case Bank：存储情景记忆的外部数据库，支持非参数化检索。
Soft Q-Learning：最大熵强化学习方法，用于优化案例检索策略。
MCP (Model Context Protocol)：标准化工具调用协议，支持多代理协调。
GAIA：评估长时程规划和工具使用的基准数据集。
Agentic RL：面向代理的强化学习，强调动态环境中的策略优化。

📄 打开原文 PDF