🤖 系统
11-30 17:36
📄 论文总结
通过显式位置到坐标映射改进图形用户界面定位 / Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
1️⃣ 一句话总结
这项研究通过引入类似地图网格的显式坐标标记和改进的空间编码方法,解决了人工智能在将语言指令映射到屏幕坐标时,因分辨率变化导致的精度下降问题,从而显著提升了跨平台图形界面自动化的可靠性。
请先 登录 后再提交论文
通过显式位置到坐标映射改进图形用户界面定位 / Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
这项研究通过引入类似地图网格的显式坐标标记和改进的空间编码方法,解决了人工智能在将语言指令映射到屏幕坐标时,因分辨率变化导致的精度下降问题,从而显著提升了跨平台图形界面自动化的可靠性。
UItron:具备高级感知与规划能力的GUI基础智能体 / UItron: Foundational GUI Agent with Advanced Perception and Planning
这篇论文提出了一个名为UItron的开源GUI基础智能体,它通过系统化的数据工程和交互式训练框架,显著提升了在移动端和PC端图形界面上的感知、定位与任务规划能力,尤其在中文应用场景中表现出色。