arXiv ID:
2604.13019
arXiv 提交日期: 2026-04-14
看、指、精调:基于视觉反馈的多轮图形用户界面定位方法 / See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback
1️⃣ 一句话总结
这篇论文提出了一种让AI助手在复杂编程界面中更精准点击目标的新方法,它通过‘观察-点击-根据视觉反馈调整’的多轮循环来逐步修正误差,而不是一次性猜测位置,从而显著提升了在密集代码编辑器等环境中的操作成功率。