📄 论文总结
- 中英文论文题目:
SEAgent: A Self-Evolving Computer Use Agent for Unfamiliar Software Environments
SEAgent:面向陌生软件环境的自进化计算机使用代理
1️⃣ 一句话总结
SEAgent提出了一种通过自主探索和课程学习实现自我进化的计算机使用代理框架,解决了传统代理在缺乏人工标注数据时难以适应新软件环境的问题,其核心创新包括动态任务生成、细粒度奖励模型和专家到通才的训练策略,在跨软件任务中实现了显著性能提升(成功率从11.3%提升至34.5%)。
2️⃣ 论文创新点
1. 自进化课程范式
- 创新点:通过Curriculum Generator动态生成由简到难的任务,结合World State Model评估轨迹,形成无监督学习闭环。
- 改进:传统方法依赖固定任务集或人工设计课程,而SEAgent能根据代理表现自动扩展任务边界(如从“添加矩形”升级到“添加半透明矩形”)。
- 意义:显著降低对新环境人工标注的依赖,适应长尾软件场景。
2. 双模态World State Model
- 创新点:基于Qwen2.5-VL改进的视觉-语言模型,联合训练状态变化描述和轨迹判断,提供细粒度奖励信号。
- 改进:相比传统稀疏奖励(仅最终成败),WSM通过分析全流程截图提升评估精度(+7.5%),且仅需Chrome数据训练即可泛化至专业软件。
- 意义:解决了跨软件环境中奖励稀疏性和偏差问题。
3. GRPO与对抗模仿联合优化
- 创新点:Group Relative Policy Optimization (GRPO)强化成功动作(a T),对抗模仿学习惩罚失败动作(a F),形成互补损失函数。
- 改进:传统RL方法(如PPO)难以处理GUI动作的异构性(点击、拖拽等),而GRPO通过动作类型相关奖励(L1/IoU/BLEU)实现统一优化。
- 意义:在复杂动作空间中实现更稳定的策略收敛。
4. Specialist-to-Generalist训练策略
- 创新点:先训练多个软件专家代理,再蒸馏为通用代理UI-TARS-7B。
- 改进:直接训练通才代理成功率仅11.3%,而本策略提升至34.5%,且优于单一专家模型。
- 意义:为跨领域GUI代理提供可扩展的迁移学习框架。
3️⃣ 主要结果与价值
实验结果亮点
- 任务成功率:在OSWorld数据集(339个PC软件任务)上,SEAgent达到34.5% SR,显著超过GPT-4o(28.1%)和Gemini-Pro(22.7%)。
- OOD泛化:在未训练过的ScienceBoard等软件中,成功率比基线(WebRL)高19.2%。
- 奖励模型精度:WSM在AgentRewardBench上缩小与GPT-4o差距至4.3%,但参数量仅7B。
实际应用价值
- 自动化潜力:可生成软件使用手册(如VScode、GIMP),降低新软件学习成本。
- 可访问性:为非技术用户提供“数字助手”,操作复杂GUI工具。
- 伦理风险:需防范滥用(如自动化攻击),论文提出行为过滤器等缓解措施。
4️⃣ 术语表
- SEAgent:自进化计算机使用代理框架,核心研究对象。
- World State Model (WSM):双模态评估模型,提供轨迹级奖励信号。
- GRPO:群体相对策略优化,结合动作类型奖励的RL方法。
- Curriculum Generator:动态生成难度递增任务的模块。
- OOD (Out-of-Domain):模型未训练过的软件环境。
- GUI-Judge:基于截图的代理行为评估机制。
- LoRA:低秩适配,用于高效微调WSM。
- OSWorld:包含339个PC软件任务的数据集。
- UI-TARS-7B:通过专家蒸馏训练的通用基础模型。
总结基于12个chunk的深度整合,覆盖方法、实验与伦理讨论,去重后保留核心贡献。