arXiv ID:
2510.03230
arXiv 提交日期: 2025-10-03
通过显式位置到坐标映射改进图形用户界面定位 / Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
1️⃣ 一句话总结
这项研究通过引入类似地图网格的显式坐标标记和改进的空间编码方法,解决了人工智能在将语言指令映射到屏幕坐标时,因分辨率变化导致的精度下降问题,从而显著提升了跨平台图形界面自动化的可靠性。