arXiv ID:
2603.02626
arXiv 提交日期: 2026-03-03
看见与记忆:一种用于网页遍历的多模态智能体 / See and Remember: A Multimodal Agent for Web Traversal
1️⃣ 一句话总结
这篇论文提出了一种名为V-GEMS的新型多模态智能体,它通过结合视觉定位和显式记忆系统,让AI在浏览网页时能更好地理解界面元素并记住走过的路径,从而有效避免迷路和重复打转,显著提升了网页导航的准确性和效率。