arXiv ID:
2601.03928
FocusUI:通过保留位置信息的视觉标记选择实现高效的用户界面定位 / FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection
1️⃣ 一句话总结
这篇论文提出了一种名为FocusUI的新方法,它通过智能地筛选出与用户指令最相关且位置连续的屏幕图像区域,在显著降低计算开销和内存占用的同时,依然能高精度地完成用户界面元素的定位任务。