2508.10833 – Summary

📄 论文总结

中英文论文题目：
UI-Venus: A Self-Evolving Multimodal LLM-Based UI Agent with Sparse Action Enhancement and Trajectory History Alignment
UI-Venus：基于稀疏动作增强与轨迹历史对齐的自进化多模态大语言模型UI代理

1️⃣ 一句话总结

UI-Venus提出了一种基于多模态大语言模型（MLLM）的端到端UI代理，通过强化微调（RFT）、自进化轨迹历史对齐和稀疏动作增强三大创新，在UI元素定位（grounding）和导航任务上实现SOTA性能，并开源了高质量数据集和评估工具，显著提升了复杂GUI交互的泛化能力和实用性。

2️⃣ 论文创新点

1. 强化微调（RFT）替代传统监督微调（SFT）

创新点：采用基于GRPO（Group Relative Policy Optimization）算法的强化学习微调范式，直接优化UI任务的判别性目标（如元素定位精度）。
改进：传统SFT的损失函数与定位任务不匹配，而RFT通过奖励函数（如点入框奖励）直接对齐任务需求，减少人工标注依赖。
意义：在少量高质量数据下实现更高效的模型训练，解决UI任务中动作-反馈延迟问题。

2. 自进化轨迹历史对齐（Self-Evolving Trajectory History Alignment）

创新点：动态优化历史推理轨迹（thought-action pairs），通过迭代筛选与真实动作匹配的候选思想池（thought pools），提升长序列决策的连贯性。
改进：传统方法依赖固定历史上下文，而本方法通过自进化机制适配模型当前推理行为，减少历史偏差。
意义：增强复杂UI导航任务的规划鲁棒性，尤其在多步操作（如跨应用切换）中表现突出。

3. 稀疏动作增强（Sparse Action Enhancement）

创新点：针对低频但关键的动作（如长按、滚动），通过多轮生成和组合不同推理路径，增加其在训练数据中的表征。
改进：传统数据集中稀疏动作（如LongPress）占比低，导致模型泛化能力差；本方法通过动作精确匹配过滤和笛卡尔积扩增思想池，强化关键动作学习。
意义：提升模型对边缘但高价值操作（如手势交互）的适应性。

4. 三阶段数据清洗与跨平台动作空间统一

创新点：提出数据过滤（去重、模糊指令修正）、轨迹重构（插入CallUser动作）、迭代生成的自动化流程，并统一移动/桌面端动作定义（如CallUser用于信息检索）。
改进：相比自动化清洗（如拒绝采样），人工校验确保更高数据质量；跨平台动作空间解决异构数据兼容性问题。
意义：生成350k高质量多语言（中英文）样本，支持模型在专业软件（如CAD）和移动端（如Android）的泛化。

3️⃣ 主要结果与价值

实验结果亮点

性能指标：
UI-Venus-72B在ScreenSpot-Pro（专业软件界面）和AndroidWorld（实时交互）上分别以12.5%和65.9%成功率超越基线模型（如GTA1-72B）。
跨语言泛化：在中文CA-GUI任务中，UI-Venus-7B比AgentCPM-GUI提升18.3%的定位准确率。
稀疏动作优化：LongPress动作执行成功率从基线32%提升至67%。
训练效率：7B/72B模型分别仅需1天/8.5天（PPU-GPU并行），数据量减少50%但性能更高。

实际应用价值

跨领域部署：支持桌面（Blender、Excel）、移动端（QQ音乐）及网页（GitLab）的零样本泛化，无需额外规划器（如GPT-4o）。
工业场景适配：简化的奖励函数（点入框+格式奖励）与实时交互能力（纯截图输入）降低部署成本。
开源生态：发布UI-Venus-Ground/Navi模型、评估工具及多语言数据集，推动GUI代理社区发展。

4️⃣ 术语表

UI-Venus：论文提出的端到端UI代理，含7B/72B参数版本及子模块（Ground/Navi）。
RFT（Reinforcement Finetune）：基于GRPO算法的强化微调方法，替代传统SFT。
GRPO（Group Relative Policy Optimization）：通过组内相对奖励归一化提升训练稳定性的强化学习算法。
Self-Evolving Trajectory History Alignment：动态优化历史推理轨迹以匹配当前决策的自进化机制。
Sparse Action Enhancement：增强低频关键动作（如长按）学习的策略。
ScreenSpot-Pro/AndroidWorld：专业软件界面和实时交互基准测试集。
CallUser：统一动作空间中用于信息检索任务答案返回的关键动作。

总结特点：
1. 方法创新：首次将自进化历史对齐与稀疏动作增强结合，解决GUI代理的长序列规划难题。
2. 工程贡献：开源高质量数据生成框架（UI-Venus-Navi）和严格清洗协议，推动领域标准化。
3. 性能突破：72B模型在跨平台任务中实现SOTA，且7B模型效率显著优于同类。

← 返回列表

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 强化微调（RFT）替代传统监督微调（SFT）

2. 自进化轨迹历史对齐（Self-Evolving Trajectory History Alignment）

3. 稀疏动作增强（Sparse Action Enhancement）

4. 三阶段数据清洗与跨平台动作空间统一

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 强化微调（RFT）替代传统监督微调（SFT）

2. 自进化轨迹历史对齐（Self-Evolving Trajectory History Alignment）

3. 稀疏动作增强（Sparse Action Enhancement）

4. 三阶段数据清洗与跨平台动作空间统一

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要