🤖 系统
10-07 11:04
📄 论文总结
基于显式空间引导的GUI精确定位方法
Explicit Spatial Guidance for GUI Grounding
1️⃣ 一句话总结
该论文提出了RULER tokens和I-MRoPE两项创新技术,通过显式空间引导机制解决了GUI定位任务中像素坐标映射不可靠和空间编码不平衡的问题,显著提升了跨分辨率和平台的定位精度。
2️⃣ 论文创新点
1. RULER tokens
- 创新点是什么:建立显式坐标参考系统的辅助标记,直接编码像素坐标并与对应图像块共享位置嵌入,将不稳定的回归问题转化为稳健的参考调整机制
- 与已有方法的区别/改进:模型可以参照最近的RULER token并通过简单有界算术确定精确位置,而非从头生成坐标
- 为什么有意义:提供了更稳健的空间参考机制,显著提高了定位精度和分辨率鲁棒性
2. Interleaved MRoPE (I-MRoPE)
- 创新点是什么:通过交错而非顺序分配频率分量来解决标准多维旋转位置编码中的频率不平衡问题
- 与已有方法的区别/改进:在宽度和高度维度上均匀分布高频和低频信号,产生平衡的空间表示
- 为什么有意义:提高了模型沿两个轴平等区分位置的能力,改善了空间建模的均衡性
3️⃣ 主要结果与价值
实验结果亮点
- 在多个基准测试上取得显著精度提升,特别是在高分辨率显示场景下表现突出
- 在挑战性基准ScreenSpot-Pro(包含1581个任务,来自23个专业桌面应用)上表现最佳
- 相比原始MRoPE和默认1D RoPE,实现更低的训练损失和更强的grounding性能
实际应用价值
- 使模型能够更可靠地跨不同分辨率和平台进行GUI自动化
- 仅增加少量token(极端情况下最多2.8%)即可显著提升性能,对效率影响可忽略
- 为需要精确定位的各种任务(包括视频界面等)提供了更有效的解决方案
4️⃣ 术语表
- GUI grounding:将自然语言指令映射到图形用户界面中精确像素坐标的任务
- RULER tokens:建立显式坐标参考系统的辅助标记,直接编码像素坐标并与对应图像块共享位置嵌入
- I-MRoPE:交错多维旋转位置编码,通过交错频率分量解决标准MRoPE中的频率不平衡问题
- ScreenSpot-Pro:包含1581个任务的挑战性基准,来自23个专业桌面应用,具有高分辨率界面和更大的领域偏移
- Element Accuracy:评估指标,当预测点落在目标元素真实边界框内时认为预测正确
- UGround:用于GUI grounding任务的数据集