← 返回列表

🤖 系统

📄 Abstract - UI-Ins: Enhancing GUI Grounding through Instruction-as-Reasoning

⏳ 正在获取摘要...

顶级标签: agents

📄 论文总结

UI-Ins：基于指令推理的图形用户界面定位增强方法 / UI-Ins: Enhancing GUI Grounding through Instruction-as-Reasoning

1️⃣ 一句话总结

本文提出了UI-Ins模型，通过创新的Instruction-as-Reasoning范式和两阶段训练框架，显著提升了图形用户界面定位任务的性能，在多个基准测试中创造了新的SOTA结果。

2️⃣ 论文创新点

1. Instruction-as-Reasoning范式

创新点：将指令视为动态推理路径而非静态输入，让模型能够选择最优的分析视角进行推理
区别/改进：解决了传统方法只能映射单一指令风格到动作的局限性
意义：解锁了利用指令多样性的潜力，大幅提升GUI grounding性能

2. 两阶段训练框架

创新点：采用SFT+GRPO的两阶段训练方法，先通过监督微调教导模型使用多样化指令视角，再通过强化学习优化路径选择和组合
区别/改进：克服了传统方法仅训练单一指令风格的局限性，缓解了策略崩溃问题
意义：实现了多视角推理能力，模型能够在推理时选择和组合新的指令路径

3. 数据质量改进与多视角指令增强

创新点：系统清理噪声标注并增强指令多样性，使用GPT-4.1从外观、功能、位置和意图四个分析视角生成多样化指令
区别/改进：解决了23.3%数据样本的质量缺陷问题，克服了现有数据集中指令质量问题和多样性不足的局限
意义：为多视角指令推理提供了高质量数据基础

3️⃣ 主要结果与价值

结果亮点

UI-Ins-32B在多个基准测试中创造新SOTA，在UI-I2E-Bench上达到95.7分
在AndroidWorld在线基准测试中实现74.1%的任务成功率，优于Gemini 2.5 Computer Use和UI-TARS-2等模型
在高级指令和隐式指令子集上表现显著改进，验证了方法在处理复杂场景中的有效性

实际价值

提升了模型在动态变化界面中的可靠性和语义对齐能力
增强了模型在存在UI漂移、渲染延迟等真实挑战下的稳定性
为复杂UI交互任务提供了更精确和稳定的视觉定位能力

4️⃣ 术语表

GUI grounding：将自然语言指令映射到可操作的UI元素的核心能力
UI-Ins：论文提出的GUI grounding模型，有7B和32B两个版本
Instruction-as-Reasoning：将指令视为动态推理路径的新范式，不同指令类型编码了识别UI元素的不同分析角度
GRPO：Group Relative Policy Optimization，在强化学习阶段使用的优化方法，让模型学习选择最优指令视角
SFT+GRPO：一种训练框架，结合监督微调和目标导向的策略优化
点入框准确率：评估GUI Grounding性能的指标，预测坐标点落在真实边界框内则视为正确
ScreenSpot-Pro：一个广泛使用的GUI Grounding评估基准，包含多个类别如CAD、Dev、Creative Scientific等
MMBench-GUI L2：测试分层指令性能的基准，包含Basic和Advanced子集
UI-I2E-Bench：UI指令执行基准测试，按平台和任务隐显性分组评估模型性能
AndroidWorld：在线基准测试平台，在实时动态变化的界面上评估grounding模型的稳定性和可靠性

📄 打开原文 PDF