← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: agents
详细标签: ui agents multimodal llm reinforcement fine-tuning sparse action enhancement trajectory alignment 或 搜索:

📄 论文总结


1️⃣ 一句话总结

UI-Venus提出了一种基于多模态大语言模型(MLLM)的端到端UI代理,通过强化微调(RFT)、自进化轨迹历史对齐和稀疏动作增强三大创新,在UI元素定位(grounding)和导航任务上实现SOTA性能,并开源了高质量数据集和评估工具,显著提升了复杂GUI交互的泛化能力和实用性。


2️⃣ 论文创新点

1. 强化微调(RFT)替代传统监督微调(SFT)

2. 自进化轨迹历史对齐(Self-Evolving Trajectory History Alignment)

3. 稀疏动作增强(Sparse Action Enhancement)

4. 三阶段数据清洗与跨平台动作空间统一


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


总结特点
1. 方法创新:首次将自进化历史对齐与稀疏动作增强结合,解决GUI代理的长序列规划难题。
2. 工程贡献:开源高质量数据生成框架(UI-Venus-Navi)和严格清洗协议,推动领域标准化。
3. 性能突破:72B模型在跨平台任务中实现SOTA,且7B模型效率显著优于同类。

📄 打开原文 PDF