📄 论文总结
CODA:一种受大脑结构启发的可训练GUI自主代理框架
CODA: A Trainable Compositional Framework for GUI Autonomous Agents Inspired by Brain Architecture
1️⃣ 一句话总结
CODA是一个受大脑结构启发的可训练组合框架,通过解耦规划器与执行器的两阶段训练方法,在科学计算GUI任务中实现了先进的自主操作性能。
2️⃣ 论文创新点
1. 大脑-小脑分离架构
- 创新点是什么:模仿人类大脑皮层和小脑的功能分工,将高级规划(大脑)与低级运动控制(小脑)分离的框架设计
- 与已有方法的区别/改进:相比端到端训练完整代理,仅优化规划器进行领域适应,执行器保持固定
- 为什么有意义:提高数据效率,降低训练成本,确保可控适应
2. 解耦强化学习策略
- 创新点是什么:高层规划器通过环境交互优化,而执行模型保持固定的学习策略
- 与已有方法的区别/改进:适应GRPO算法,通过最终动作计算奖励并仅通过规划令牌反向传播优势
- 为什么有意义:稳定增强战略规划,区别于训练专用评判模型或使用过滤行为克隆的先前工作
3. 两阶段训练流程
- 创新点是什么:包含专业化(Specialization)和泛化(Generalization)两个训练阶段
- 与已有方法的区别/改进:专业化阶段使用解耦GRPO方法训练专家规划器,泛化阶段聚合成功轨迹进行监督微调
- 为什么有意义:使模型能够从有限的高质量数据中学习并适应,获得跨领域的泛化能力
4. 自动奖励系统
- 创新点是什么:利用开源模型构建评判系统自动提供密集奖励信号
- 与已有方法的区别/改进:避免需要昂贵的人工标注轨迹,实现零人工努力的领域特定规划能力获取
- 为什么有意义:使规划器能够通过自主交互逐步获得领域特定知识
3️⃣ 主要结果与价值
实验结果亮点
- 在ScienceBoard基准测试的四个科学软件应用上验证了方法的有效性
- 实现了开源模型中的新SOTA性能
- 两阶段方法相比基线有显著提升
- 采用基于HTTP的主从架构分布式系统,支持数百个并发环境
实际应用价值
- 适用于复杂科学计算GUI任务的长程规划和精细执行
- 无需人工标注即可训练领域特定的规划能力
- 分布式虚拟机系统加速轨迹收集,适合大规模训练和评估
4️⃣ 术语表
- CODA:协调大脑皮层和小脑的双计算机使用代理框架,采用解耦强化学习
- ScienceBoard:科学计算领域的基准测试平台,用于评估GUI自主代理性能
- Qwen2.5-VL:作为规划器(大脑)使用的大型视觉语言模型
- UI-TARS-1.5:作为执行器(小脑)使用的通用基础模型,提供稳定的低级GUI动作基础
- POMDP:部分可观测马尔可夫决策过程,用于形式化定义自主GUI操作软件工作流的任务
- Planner-Executor框架:一种复合代理架构,将决策过程解耦为负责策略思考的规划器和负责具体动作执行的执行器
- GRPO:群体相对策略优化框架,通过比较不同输出的相对质量来获得有意义的学习信号
- RLHF:从人类反馈中进行的强化学习,一种训练AI模型的技术
- LLM:大语言模型,能够处理和生成自然语言的大型人工智能模型
- GUI代理:图形用户界面代理,能够自动化操作图形界面