🤖 系统
11-06 14:43
📄 论文总结
基于注意力机制的无需坐标GUI定位监督微调框架 / GUI-AIMA: Attention Mechanism-based Coordinate-Free GUI Grounding via Supervised Fine-Tuning
1️⃣ 一句话总结
本文提出了一种基于注意力机制的无坐标GUI定位方法GUI-AIMA,通过监督微调多模态大语言模型的内在注意力模式,实现了高效、准确的图形用户界面元素定位。
2️⃣ 论文创新点
1. 注意力对齐的监督微调
- 创新点:利用多模态大语言模型内在的定位能力,通过监督其多模态注意力来实现GUI定位
- 区别/改进:避免了直接生成精确坐标的挑战和计算开销,转而监督模型对视觉块的注意力分布
- 意义:证明了轻量级训练即可触发MLLMs的固有定位能力,实现了卓越的数据效率
2. 上下文锚点标记
- 创新点:引入可学习的
标记作为所有查询文本标记注意力的替代聚合器 - 区别/改进:简化了对所有查询标记的注意力图进行聚合的原始方法
- 意义:提供了一种更有效和简化的方式来计算和聚合与定位相关的注意力信号
3. 无坐标定位
- 创新点:通过选择最相关的视觉块来确定位置,而不是直接生成坐标
- 区别/改进:更符合人类与GUI交互的直觉,并且便于集成额外的放大阶段进行精确定位
- 意义:为高分辨率屏幕截图提供了灵活且可能更精确的两步定位策略
4. 视觉汇聚查询标记选择
- 创新点:通过计算查询标记和视觉补丁之间隐藏状态的余弦相似度,自适应选择具有强视觉相关性的查询标记
- 区别/改进:解决了仅依赖未成熟的
标记会引入噪声的问题,提供了更准确的注意力头权重计算 - 意义:使注意力监督偏向于具有大查询-视觉相关性的注意力头,改进了MLLM的固有注意力基础
5. 两步放大推理
- 创新点:无需训练的两步推理:先定位大致区域,再裁剪高分辨率区域精确定位
- 区别/改进:解决了高分辨率截图中采样导致的信息丢失问题
- 意义:显著提升细粒度空间定位精度,保持模型灵活性
3️⃣ 主要结果与价值
结果亮点
- 在最具挑战性的ScreenSpot-Pro基准测试中取得58.6%的最佳性能
- 在OSWorld-G基准测试中结合zoom-in技术后平均分达到62.2%,显著优于其他模型
- 仅使用8.5万张截图进行数据高效训练,比传统方法提升4.5%
- 在抽象图标任务集上表现最佳,优于UI-TARS-1.5-7B、JEDI-7B等强基线模型
实际价值
- 为高分辨率屏幕提供了灵活且精确的两步定位策略
- 无需额外模块和预热训练阶段,简化了部署流程
- 支持通过额外放大步骤自我纠正偏移误差,无需重新训练
- 在小参数模型上展现了强大的GUI理解潜力,降低了计算资源需求
4️⃣ 术语表
- GUI-AIMA:一种基于注意力机制和无坐标方式的监督微调框架,用于图形用户界面定位
- GUI Grounding:将自然语言指令映射到屏幕上可操作区域(如图标、按钮)的任务
token :特殊锚点标记,作为用户查询标记和视觉基础补丁之间的桥梁,用于简化注意力聚合- visual-sink query tokens:视觉汇聚查询标记,具有强视觉相关性的全局活跃标记,用于连接视觉输入和查询标记
- ScreenSpot-Pro:包含复杂专业软件场景的高分辨率截图评估基准,测试不同操作系统的界面
- OSWorld-G:GUI理解任务的评估基准,包含Mobile、Desktop、Web等场景
- patch-wise attention vector:文本标记与所有视觉补丁标记之间的注意力向量,用于指示补丁在基础区域中的隶属程度