🤖 系统
09-03 15:38
📄 论文总结
FlashAdventure基准测试与COAST框架:评估GUI智能体在完整故事线游戏中的能力
FlashAdventure Benchmark and COAST Framework: Evaluating GUI Agents' Capabilities in Complete Storyline Games
1️⃣ 一句话总结
本研究提出了FlashAdventure基准测试和COAST框架,用于评估GUI智能体在完整故事线冒险游戏中的表现,并通过线索导向方法解决观察-行为差距问题。
2️⃣ 论文创新点
1. FlashAdventure基准测试
- 创新点是什么:包含34款经典Flash冒险游戏的多样化测试平台,专注于评估智能体完成完整故事线的能力
- 与已有方法的区别/改进:解决了现有基准测试游戏数量有限且大多不测试完整故事线的问题,提供了更高的任务和游戏多样性
- 为什么有意义:为GUI智能体在广泛游戏场景中的能力提供了更全面和真实的测试平台,特别关注故事驱动的冒险游戏
2. CUA-as-a-Judge自动评估框架
- 创新点是什么:使用Claude-3.7-Sonnet作为评判代理,通过与游戏环境交互自动验证里程碑完成情况
- 与已有方法的区别/改进:替代了传统的人工评估方法,解决了像素/截图基准缺乏自动评估的问题
- 为什么有意义:实现了94.00%的人类评估一致性,大幅提高了评估效率和可扩展性
3. COAST框架
- 创新点是什么:线索导向的智能体框架,采用Seek-Map-Solve循环机制解决长期观察行为差距问题
- 与已有方法的区别/改进:通过有效管理线索记忆来增强规划能力,专门设计用于解决FlashAdventure中的观察-行为差距问题
- 为什么有意义:在缩小观察-行为差距和改善问题解决能力方面显示出效果,是处理长期依赖关系的一种技术推进
3️⃣ 主要结果与价值
实验结果亮点
- 所有智能体在游戏任务中表现远低于人类水平,成功率接近零
- COAST相比Claude-3.7-Sonnet基线模型,成功率提高5.88个百分点,里程碑完成率最高提升2.78个百分点
- 人类游戏验证显示平均1142步、26分钟完成,成功率97.1%,存在长期观察-行为间隔(平均251.1步)
实际应用价值
- 为GUI智能体在复杂、长期任务中的规划、感知和联想思维能力提供了重要的测试平台
- 自动化评估框架大幅减少了人工评估成本,提高了评估效率
- 线索导向方法为复杂任务的解决提供了系统化的方法论,提高了代理在复杂环境中的表现
4️⃣ 术语表
- FlashAdventure:基于FlashPoint Archive构建的34款经典冒险游戏基准,强调推理、叙事探索,是现有视频游戏基准中最大的
- 观察-行为差距:指智能体观察到信息与能够据此采取行动之间的时间滞后,是冒险游戏中管理长期依赖关系的关键挑战
- CUA-as-a-Judge:基于Claude-3.7-Sonnet的自动评估框架,通过与游戏环境交互来验证里程碑完成情况
- COAST:线索导向的智能体框架,采用Seek-Map-Solve循环通过寻找线索、生成假设和执行验证来解决复杂任务
- 里程碑奖励函数R_m:函数R_m: S × A → R,在环境中基于进展里程碑分配中间奖励,但值不对智能体直接可见
- 知道-执行差距:模型拥有知识但无法将其转化为实际行动的现象