← 返回列表

菜单

🤖 系统
📄 Abstract - FlashAdventure Benchmark and COAST Framework: Evaluating GUI Agents' Capabilities in Complete Storyline Games
正在获取摘要...
顶级标签: agents
详细标签: gui agents adventure games automated evaluation long-term planning observation-action gap 或 搜索:

📄 论文总结

FlashAdventure基准测试与COAST框架:评估GUI智能体在完整故事线游戏中的能力

FlashAdventure Benchmark and COAST Framework: Evaluating GUI Agents' Capabilities in Complete Storyline Games


1️⃣ 一句话总结

本研究提出了FlashAdventure基准测试和COAST框架,用于评估GUI智能体在完整故事线冒险游戏中的表现,并通过线索导向方法解决观察-行为差距问题。


2️⃣ 论文创新点

1. FlashAdventure基准测试

2. CUA-as-a-Judge自动评估框架

3. COAST框架


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF