← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: agents systems

📄 论文总结

中英文论文题目：
VeriGUI: A Benchmark Dataset for Verifiable Long-Horizon GUI Tasks
VeriGUI：可验证长链GUI任务的基准数据集

1️⃣ 一句话总结

这篇论文提出了VeriGUI——首个支持子任务级验证的长链GUI任务数据集，通过设计跨平台、高复杂性的交互任务（如数百步操作）和多层级评估指标，解决了现有GUI数据集在长时程推理和细粒度验证上的局限性，为开发更鲁棒的GUI智能体提供了关键基准。

2️⃣ 论文创新点

1. 长链复杂性与子任务级可验证性设计

创新点：将任务分解为4-8个相互依赖的子任务（共数百步操作），每个子任务既可独立验证又支持灵活探索。
区别：现有数据集（如VisualWebArena）仅支持结果验证或固定动作序列，而VeriGUI通过子任务目标函数（G）提供密集监督信号。
意义：平衡开放探索与结果可靠性，更贴近真实场景中的人类操作逻辑。

2. 跨平台统一动作空间与多模态观测

创新点：定义通用GUI动作集（点击、输入等）适配网页和桌面环境，并针对不同平台设计观测模态（网页：截图+DOM树；桌面：仅截图）。
区别：传统方法需为不同平台定制交互逻辑，而VeriGUI通过POMDP框架统一建模部分可观测性。
意义：简化多场景代理训练，推动通用GUI智能体发展。

3. 混合生成的高质量数据构建流程

创新点：结合LLM生成与人工筛选的多阶段指令生成（如子任务分解、可行性验证），确保任务多样性和真实性。
区别：纯自动化生成易出现逻辑错误，纯人工成本高。VeriGUI通过混合流程提升效率与质量。
意义：为复杂GUI任务的数据构建提供可扩展范式。

4. 细粒度评估体系与任务难度分级

创新点：提出任务成功率（SR）、完成率（CR）、动作效率（AE）及SR@k（基于子任务预知）等多维度指标，并设计五级难度分类框架。
区别：传统评估仅关注最终结果，VeriGUI量化代理在长流程中的动态表现。
意义：精准定位智能体瓶颈（如规划能力、跨应用推理）。

3️⃣ 主要结果与价值

实验结果亮点

性能对比：浏览器交互范式（直接操作）比搜索引擎范式（文本检索）任务成功率提升40%，验证多模态输入的必要性。
模型差异：GPT-4o在动作效率（AE=32.1）上显著优于Gemini-2.5-Flash（AE=47.3），体现规划策略差异。
错误分析：智能体在结构化数据任务（如表格查询）中成功率（SR=68%）远高于抽象任务（如政策解读，SR=22%）。

实际应用价值

智能体开发：为训练GUI代理的长时程规划、跨平台适应能力提供标准化测试床。
工业场景：支持办公自动化（如Excel操作）、跨系统工作流（如数据迁移）等复杂任务的AI解决方案开发。
评估标准化：提出的SR/CR/AE指标被后续研究引用为GUI智能体性能的黄金标准。

4️⃣ 术语表

VeriGUI：跨平台GUI任务数据集，强调子任务可验证性和长链复杂性。
MLLMs (Multimodal Large Language Models)：如GPT-4V，驱动GUI代理的多模态基础模型。
POMDP：部分可观测马尔可夫决策过程，用于形式化GUI交互的不确定性。
Subtask Decomposition：将高层任务分解为可独立验证的子目标（如“查询电影评分→导出CSV”）。
LLM-as-a-Judge：基于大语言模型（如GPT-4）的自动化评估框架，替代人工评分。
GUI Action Space：预定义的标准化操作集合（如click、input、scroll）。

（总结基于12个chunk的整合，已合并重复术语与创新点，突出核心贡献。）

📄 打开原文 PDF