← 返回列表

菜单

🤖 系统
📄 Abstract - GUI-AIMA: Attention Mechanism-based Coordinate-Free GUI Grounding via Supervised Fine-Tuning
正在获取摘要...
详细标签: gui grounding attention mechanisms multimodal llms visual-language understanding supervised fine-tuning 或 搜索:

📄 论文总结

基于注意力机制的无需坐标GUI定位监督微调框架 / GUI-AIMA: Attention Mechanism-based Coordinate-Free GUI Grounding via Supervised Fine-Tuning


1️⃣ 一句话总结

本文提出了一种基于注意力机制的无坐标GUI定位方法GUI-AIMA,通过监督微调多模态大语言模型的内在注意力模式,实现了高效、准确的图形用户界面元素定位。


2️⃣ 论文创新点

1. 注意力对齐的监督微调

2. 上下文锚点标记

3. 无坐标定位

4. 视觉汇聚查询标记选择

5. 两步放大推理


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF