🤖 系统
10-27 21:14
📄 论文总结
UI-Ins:基于指令推理的图形用户界面定位增强方法 / UI-Ins: Enhancing GUI Grounding through Instruction-as-Reasoning
1️⃣ 一句话总结
本文提出了UI-Ins模型,通过创新的Instruction-as-Reasoning范式和两阶段训练框架,显著提升了图形用户界面定位任务的性能,在多个基准测试中创造了新的SOTA结果。
2️⃣ 论文创新点
1. Instruction-as-Reasoning范式
- 创新点:将指令视为动态推理路径而非静态输入,让模型能够选择最优的分析视角进行推理
- 区别/改进:解决了传统方法只能映射单一指令风格到动作的局限性
- 意义:解锁了利用指令多样性的潜力,大幅提升GUI grounding性能
2. 两阶段训练框架
- 创新点:采用SFT+GRPO的两阶段训练方法,先通过监督微调教导模型使用多样化指令视角,再通过强化学习优化路径选择和组合
- 区别/改进:克服了传统方法仅训练单一指令风格的局限性,缓解了策略崩溃问题
- 意义:实现了多视角推理能力,模型能够在推理时选择和组合新的指令路径
3. 数据质量改进与多视角指令增强
- 创新点:系统清理噪声标注并增强指令多样性,使用GPT-4.1从外观、功能、位置和意图四个分析视角生成多样化指令
- 区别/改进:解决了23.3%数据样本的质量缺陷问题,克服了现有数据集中指令质量问题和多样性不足的局限
- 意义:为多视角指令推理提供了高质量数据基础
3️⃣ 主要结果与价值
结果亮点
- UI-Ins-32B在多个基准测试中创造新SOTA,在UI-I2E-Bench上达到95.7分
- 在AndroidWorld在线基准测试中实现74.1%的任务成功率,优于Gemini 2.5 Computer Use和UI-TARS-2等模型
- 在高级指令和隐式指令子集上表现显著改进,验证了方法在处理复杂场景中的有效性
实际价值
- 提升了模型在动态变化界面中的可靠性和语义对齐能力
- 增强了模型在存在UI漂移、渲染延迟等真实挑战下的稳定性
- 为复杂UI交互任务提供了更精确和稳定的视觉定位能力
4️⃣ 术语表
- GUI grounding:将自然语言指令映射到可操作的UI元素的核心能力
- UI-Ins:论文提出的GUI grounding模型,有7B和32B两个版本
- Instruction-as-Reasoning:将指令视为动态推理路径的新范式,不同指令类型编码了识别UI元素的不同分析角度
- GRPO:Group Relative Policy Optimization,在强化学习阶段使用的优化方法,让模型学习选择最优指令视角
- SFT+GRPO:一种训练框架,结合监督微调和目标导向的策略优化
- 点入框准确率:评估GUI Grounding性能的指标,预测坐标点落在真实边界框内则视为正确
- ScreenSpot-Pro:一个广泛使用的GUI Grounding评估基准,包含多个类别如CAD、Dev、Creative Scientific等
- MMBench-GUI L2:测试分层指令性能的基准,包含Basic和Advanced子集
- UI-I2E-Bench:UI指令执行基准测试,按平台和任务隐显性分组评估模型性能
- AndroidWorld:在线基准测试平台,在实时动态变化的界面上评估grounding模型的稳定性和可靠性