arXiv最新AI论文速览速学

🔍

标签: #gui agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection 05-30

arXiv ID: 2605.28534

arXiv 提交日期: 2026-05-27

agents multi-modal gui agents mid-training causal internalization exemplar reselection knowledge distillation

GUI-CIDER：通过因果内化与密度感知示例重选进行GUI智能体中期训练 / GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

1️⃣ 一句话总结

本文提出一种名为GUI-CIDER的中期训练方法，通过将图形用户界面的操作知识显式提炼成文本，并利用因果结构奖励和去冗余筛选来优化训练数据，从而让GUI智能体真正理解操作逻辑而不仅仅是机械记忆，显著提升了任务完成能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19484

arXiv 提交日期: 2026-05-19

agents benchmark multi-modal gui agents media editing long-horizon tasks evaluation compositional action

CutVerse：面向媒体后期剪辑的模块化GUI智能体基准测试 / CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

1️⃣ 一句话总结

本文提出了CutVerse基准测试，专门用于评估AI智能体在专业媒体后期制作（如视频剪辑、图像编辑）中的操作能力，并揭示了现有智能体在复杂、长任务流程中成功率仅36%的显著局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18048

arXiv 提交日期: 2026-05-18

agents natural language processing benchmark gui agents proactive search document-guided action grounding long-tailed tasks

DocOS：面向GUI代理的主动文档引导操作 / DocOS: Towards Proactive Document-Guided Actions in GUI Agents

1️⃣ 一句话总结

这篇论文提出了一种新方法，让图形界面（GUI）助手像人一样主动搜索在线文档来解决复杂任务，并设计了DocOS测试平台，发现当前代理在查找文档和执行指导两方面都存在瓶颈，为开发能自我进化的智能助手指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13527

arXiv 提交日期: 2026-05-13

agents multi-modal visual agents multimodal skills procedural knowledge skill generation gui agents

MMSkills：面向通用视觉智能体的多模态技能 / MMSkills: Towards Multimodal Skills for General Visual Agents

1️⃣ 一句话总结

本文提出了一种名为MMSkills的框架，通过将视觉智能体的操作经验打包成包含文本步骤、状态卡片和多视角关键帧的多模态技能包，使智能体在推理时能结合视觉证据做出决策，从而显著提升其在图形界面和游戏等场景中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25380

arXiv 提交日期: 2026-04-28

agents multi-modal gui agents benchmark dynamic environments video understanding reflection

高动态环境下的GUI代理基准测试与改进 / Benchmarking and Improving GUI Agents in High-Dynamic Environments

1️⃣ 一句话总结

本文针对现有图形界面代理在处理界面频繁变化的高动态环境时信息获取不足的问题，提出了一个覆盖十个应用场景的在线基准测试DynamicGUIBench，并设计了一种名为DynamicUI的新代理方法，通过分析交互过程视频、动态选择关键帧、优化思考与动作一致性以及引入反思模块，显著提升了代理在动态环境中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08013

arXiv 提交日期: 2026-03-09

agents benchmark multi-modal gui agents proactive assistants intent recommendation multimodal llms visual state tracking

PIRA-Bench：从被动式GUI代理到基于GUI的主动意图推荐代理的转变 / PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

1️⃣ 一句话总结

这篇论文提出了一个名为PIRA-Bench的新基准测试，用于评估多模态大语言模型如何从连续、嘈杂的屏幕视觉输入中主动预测用户意图并推荐任务，而不是被动等待指令，并为此设计了一个能管理多任务和噪声的基线框架PIRF。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02951

arXiv 提交日期: 2026-03-03

agents reinforcement learning model training continual learning gui agents reinforcement fine-tuning multimodal llm gradient surgery

CGL：通过强化微调推进持续GUI学习 / CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

1️⃣ 一句话总结

这篇论文提出了一个名为CGL的新框架，通过巧妙地结合监督微调和强化学习，并引入动态调整机制与梯度处理策略，有效解决了图形用户界面智能体在持续学习新任务时容易遗忘旧知识的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10814

arXiv 提交日期: 2026-02-11

agents benchmark multi-modal gui agents block-based programming multimodal evaluation visuomotor control program construction

看、规划、点击：在Scratch中评估多模态图形界面智能体 / See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

1️⃣ 一句话总结

这篇论文提出了一个名为ScratchWorld的新评估基准，用于全面测试AI智能体在Scratch图形化编程环境中通过操作界面来构建、调试和扩展程序的能力，并发现当前智能体在高级规划与精细界面操作之间存在明显差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09012

arXiv 提交日期: 2026-02-09

agents benchmark systems captcha security gui agents cognitive gap evaluation framework

下一代验证码：利用认知鸿沟构建可扩展且多样化的图形界面智能体防御 / Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense

1️⃣ 一句话总结

这篇论文提出了一种新的验证码防御框架，它通过设计需要人类直觉而非精确规划的动态交互任务，利用人与AI在认知上的根本差异，来有效区分真实用户和高级智能体，从而为网络提供可大规模扩展的安全防护。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05832

arXiv 提交日期: 2026-02-05

agents reinforcement learning systems gui agents experience memory online rl hierarchical memory cross-task transfer

UI-Mem：面向移动GUI智能体在线强化学习的自演进经验记忆框架 / UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为UI-Mem的新框架，它通过构建一个能够存储和跨任务迁移高层次操作流程、子任务技能及失败模式的自演进经验记忆库，有效解决了移动图形界面智能体在在线强化学习中面临的长期任务信用分配困难和错误重复发生的问题，从而显著提升了智能体的学习效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28534

1️⃣ 一句话总结

arXiv ID: 2605.19484

1️⃣ 一句话总结

arXiv ID: 2605.18048

1️⃣ 一句话总结

arXiv ID: 2605.13527

1️⃣ 一句话总结

arXiv ID: 2604.25380

1️⃣ 一句话总结

arXiv ID: 2603.08013

1️⃣ 一句话总结

arXiv ID: 2603.02951

1️⃣ 一句话总结

arXiv ID: 2602.10814

1️⃣ 一句话总结

arXiv ID: 2602.09012

1️⃣ 一句话总结

arXiv ID: 2602.05832

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19484 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13527 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02951 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09012 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05832 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28534

arXiv ID: 2605.19484

arXiv ID: 2605.18048

arXiv ID: 2605.13527

arXiv ID: 2604.25380

arXiv ID: 2603.08013

arXiv ID: 2603.02951

arXiv ID: 2602.10814

arXiv ID: 2602.09012

arXiv ID: 2602.05832