📄 论文总结
- 中英文论文题目:
UI-Venus: A Self-Evolving Multimodal LLM-Based UI Agent with Sparse Action Enhancement and Trajectory History Alignment
UI-Venus:基于稀疏动作增强与轨迹历史对齐的自进化多模态大语言模型UI代理
1️⃣ 一句话总结
UI-Venus提出了一种基于多模态大语言模型(MLLM)的端到端UI代理,通过强化微调(RFT)、自进化轨迹历史对齐和稀疏动作增强三大创新,在UI元素定位(grounding)和导航任务上实现SOTA性能,并开源了高质量数据集和评估工具,显著提升了复杂GUI交互的泛化能力和实用性。
2️⃣ 论文创新点
1. 强化微调(RFT)替代传统监督微调(SFT)
- 创新点:采用基于GRPO(Group Relative Policy Optimization)算法的强化学习微调范式,直接优化UI任务的判别性目标(如元素定位精度)。
- 改进:传统SFT的损失函数与定位任务不匹配,而RFT通过奖励函数(如点入框奖励)直接对齐任务需求,减少人工标注依赖。
- 意义:在少量高质量数据下实现更高效的模型训练,解决UI任务中动作-反馈延迟问题。
2. 自进化轨迹历史对齐(Self-Evolving Trajectory History Alignment)
- 创新点:动态优化历史推理轨迹(thought-action pairs),通过迭代筛选与真实动作匹配的候选思想池(thought pools),提升长序列决策的连贯性。
- 改进:传统方法依赖固定历史上下文,而本方法通过自进化机制适配模型当前推理行为,减少历史偏差。
- 意义:增强复杂UI导航任务的规划鲁棒性,尤其在多步操作(如跨应用切换)中表现突出。
3. 稀疏动作增强(Sparse Action Enhancement)
- 创新点:针对低频但关键的动作(如长按、滚动),通过多轮生成和组合不同推理路径,增加其在训练数据中的表征。
- 改进:传统数据集中稀疏动作(如
LongPress
)占比低,导致模型泛化能力差;本方法通过动作精确匹配过滤和笛卡尔积扩增思想池,强化关键动作学习。 - 意义:提升模型对边缘但高价值操作(如手势交互)的适应性。
4. 三阶段数据清洗与跨平台动作空间统一
- 创新点:提出数据过滤(去重、模糊指令修正)、轨迹重构(插入
CallUser
动作)、迭代生成的自动化流程,并统一移动/桌面端动作定义(如CallUser
用于信息检索)。 - 改进:相比自动化清洗(如拒绝采样),人工校验确保更高数据质量;跨平台动作空间解决异构数据兼容性问题。
- 意义:生成350k高质量多语言(中英文)样本,支持模型在专业软件(如CAD)和移动端(如Android)的泛化。
3️⃣ 主要结果与价值
实验结果亮点
- 性能指标:
- UI-Venus-72B在ScreenSpot-Pro(专业软件界面)和AndroidWorld(实时交互)上分别以12.5%和65.9%成功率超越基线模型(如GTA1-72B)。
- 跨语言泛化:在中文CA-GUI任务中,UI-Venus-7B比AgentCPM-GUI提升18.3%的定位准确率。
- 稀疏动作优化:
LongPress
动作执行成功率从基线32%提升至67%。 - 训练效率:7B/72B模型分别仅需1天/8.5天(PPU-GPU并行),数据量减少50%但性能更高。
实际应用价值
- 跨领域部署:支持桌面(Blender、Excel)、移动端(QQ音乐)及网页(GitLab)的零样本泛化,无需额外规划器(如GPT-4o)。
- 工业场景适配:简化的奖励函数(点入框+格式奖励)与实时交互能力(纯截图输入)降低部署成本。
- 开源生态:发布UI-Venus-Ground/Navi模型、评估工具及多语言数据集,推动GUI代理社区发展。
4️⃣ 术语表
- UI-Venus:论文提出的端到端UI代理,含7B/72B参数版本及子模块(Ground/Navi)。
- RFT(Reinforcement Finetune):基于GRPO算法的强化微调方法,替代传统SFT。
- GRPO(Group Relative Policy Optimization):通过组内相对奖励归一化提升训练稳定性的强化学习算法。
- Self-Evolving Trajectory History Alignment:动态优化历史推理轨迹以匹配当前决策的自进化机制。
- Sparse Action Enhancement:增强低频关键动作(如长按)学习的策略。
- ScreenSpot-Pro/AndroidWorld:专业软件界面和实时交互基准测试集。
- CallUser:统一动作空间中用于信息检索任务答案返回的关键动作。
总结特点:
1. 方法创新:首次将自进化历史对齐与稀疏动作增强结合,解决GUI代理的长序列规划难题。
2. 工程贡献:开源高质量数据生成框架(UI-Venus-Navi)和严格清洗协议,推动领域标准化。
3. 性能突破:72B模型在跨平台任务中实现SOTA,且7B模型效率显著优于同类。