HiconAgent:面向图形界面智能体的历史上下文感知策略优化 / HiconAgent: History Context-aware Policy Optimization for GUI Agents
1️⃣ 一句话总结
这篇论文提出了一种名为HiconAgent的智能体,它通过一种创新的历史上下文感知优化方法,让图形界面操作机器人既能有效利用过去的操作经验来提升任务成功率,又能大幅减少计算负担,实现了性能与效率的双重提升。
请先 登录 后再提交论文
HiconAgent:面向图形界面智能体的历史上下文感知策略优化 / HiconAgent: History Context-aware Policy Optimization for GUI Agents
这篇论文提出了一种名为HiconAgent的智能体,它通过一种创新的历史上下文感知优化方法,让图形界面操作机器人既能有效利用过去的操作经验来提升任务成功率,又能大幅减少计算负担,实现了性能与效率的双重提升。
MAS-Bench:一个用于评估移动GUI与快捷操作混合智能体的统一基准 / MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
这篇论文提出了一个名为MAS-Bench的基准测试平台,专门用于评估移动设备上结合图形界面操作和快捷方式的混合智能体,通过139个复杂任务和多种评价指标,证明了混合方法比纯图形界面操作更高效和可靠。
UI-TARS-2技术报告:通过多轮强化学习推进图形用户界面智能体 / UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
这篇论文提出了UI-TARS-2智能体模型,通过数据飞轮和多轮强化学习等技术,显著提升了图形界面操作的性能,在多项测试中超越现有模型并接近人类水平。
FlashAdventure:一个用于评估GUI智能体在多样冒险游戏中完成完整故事线的基准 / FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
这篇论文提出了一个名为FlashAdventure的新基准,包含34款Flash冒险游戏,用于测试AI智能体完成完整故事线的能力,并设计了一种利用长期线索记忆的智能体框架来提升任务解决效果,实验表明现有智能体仍与人类表现存在明显差距。
UItron:具备高级感知与规划能力的GUI基础智能体 / UItron: Foundational GUI Agent with Advanced Perception and Planning
这篇论文提出了一个名为UItron的开源GUI基础智能体,它通过系统化的数据工程和交互式训练框架,显著提升了在移动端和PC端图形界面上的感知、定位与任务规划能力,尤其在中文应用场景中表现出色。
CODA:通过解耦强化学习协调大脑与小脑的双脑计算机使用代理 / CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
这篇论文提出了一个名为CODA的新型智能代理框架,它通过结合通用规划器和专业执行器的双脑协作方式,解决了科学计算等专业领域中图形界面自动化任务在长期规划和精确执行之间的平衡问题,并在实验中取得了领先的性能。