🤖 系统
11-30 17:48
📄 论文总结
GUI-AIMA:通过上下文锚点对齐内在多模态注意力以实现图形用户界面定位 / GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
1️⃣ 一句话总结
这篇论文提出了一种无需直接生成坐标的高效图形用户界面定位方法,通过巧妙利用多模态大模型的内部注意力机制,仅需少量数据训练即可在多个基准测试中达到领先的准确率。