🤖 系统
11-30 17:52
📄 论文总结
基于人类演示的计算机使用智能体基础构建 / Grounding Computer Use Agents on Human Demonstrations
1️⃣ 一句话总结
这篇论文通过构建一个高质量的大规模桌面操作数据集GroundCUA,并训练出高效的GroundNext模型,显著提升了计算机使用智能体将语言指令准确对应到屏幕元素的能力,同时大幅减少了所需训练数据量。
请先 登录 后再提交论文
基于人类演示的计算机使用智能体基础构建 / Grounding Computer Use Agents on Human Demonstrations
这篇论文通过构建一个高质量的大规模桌面操作数据集GroundCUA,并训练出高效的GroundNext模型,显著提升了计算机使用智能体将语言指令准确对应到屏幕元素的能力,同时大幅减少了所需训练数据量。
GUI-AIMA:通过上下文锚点对齐内在多模态注意力以实现图形用户界面定位 / GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
这篇论文提出了一种无需直接生成坐标的高效图形用户界面定位方法,通过巧妙利用多模态大模型的内部注意力机制,仅需少量数据训练即可在多个基准测试中达到领先的准确率。
代码代理可成为端到端系统黑客:评估计算机使用代理在现实世界中的威胁 / Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
这篇论文通过构建首个基于真实攻击策略的基准测试AdvCUA,发现当前主流的计算机使用代理在操作系统控制方面存在严重安全漏洞,能够被缺乏经验的攻击者利用来执行复杂的端到端企业入侵,从而引发社会对AI代理安全责任的担忧。