🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
UI-AGILE: Training and Inference Enhancements for GUI Agents
UI-AGILE:图形用户界面代理的训练与推理增强方法
1️⃣ 一句话总结
UI-AGILE 提出了一套针对GUI代理的轻量级训练与推理增强框架,通过连续奖励函数、动态难度调整策略和分解式定位选择机制,显著提升了代理在高分辨率屏幕中的定位精度和任务执行效率,仅需9k样本即可超越传统大规模训练模型的性能。
2️⃣ 论文创新点
1. 训练阶段的三重优化
- 创新点:
- “Simple Thinking”奖励:通过非线性余弦函数惩罚过长/过短推理,平衡效率与效果。
- 连续定位奖励:基于切比雪夫距离(L∞)动态调整奖励,优先学习目标核心区域而非边界。
- 裁剪重采样策略:裁剪复杂样本以降低难度,类似课程学习缓解稀疏奖励问题。
- 改进:传统方法依赖二元奖励和固定难度样本,UI-AGILE实现了细粒度训练引导。
- 意义:仅需2轮训练和少量数据即可达到SOTA,效率提升5倍以上(如UI-AGILE-7B优于50B token训练的基线)。
2. 推理阶段的分解式定位选择
- 创新点:将高分辨率屏幕分解为子图像,通过VLM裁决最优候选,减少视觉噪声干扰。
- 改进:传统方法直接处理全分辨率图像,计算复杂度高(O(n²)),而子图像分割将复杂度降至O(n²/4)。
- 意义:在ScreenSpot-Pro基准上定位精度提升75.1%,且轻量级VLM筛选单次前向传播即可完成。
3. 轻量高效的系统设计
- 创新点:结合GRPO强化学习算法和即插即用架构,兼容现有模型(如Qwen2.5-VL)。
- 改进:无需微调裁决模型,直接增强预训练基座能力。
- 意义:UI-AGILE-3B/7B在AndroidControl多步任务中超越更大规模模型(如UI-TARS-72B)。
3️⃣ 主要结果与价值
实验结果亮点
- 定位精度:在ScreenSpot-Pro上达到SOTA,OS-Atlas-7B提升75.1%。
- 任务成功率:AndroidControl-High多步推理任务中SR(成功率)提升23%。
- 训练效率:9k样本+2轮训练即超越传统大规模训练(消融实验显示连续奖励和裁剪重采样分别贡献10%和12.4%提升)。
实际应用价值
- 跨领域泛化:支持专业软件(如Photoshop)和移动端(Android)的GUI操作。
- 可部署性:轻量级设计(3B/7B参数)适合边缘设备,推理阶段仅需中心点扩展法即可平衡性能与开销。
4️⃣ 术语表
- UI-AGILE:论文提出的GUI代理框架,包含训练与推理创新。
- VLM(Vision-Language Model):用于裁决子图像候选的视觉语言模型。
- GRPO算法:强化学习技术,优化批量样本学习效率。
- 切比雪夫距离(L∞):适应矩形边界框的度量,用于连续定位奖励计算。
- AndroidControl-Low/High:分别测试基础指令执行和高阶多步推理的基准。
- Decomposed Grounding:分解高分辨率图像为子区域并联合选择的定位方法。
(总结合并了10个chunk的核心信息,剔除冗余表述如重复术语和实验细节参数,突出方法对比与量化效果。)