📄 论文总结
FlashAdventure:一个用于评估GUI智能体在多样冒险游戏中完成完整故事线的基准 / FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
1️⃣ 一句话总结
这篇论文提出了一个名为FlashAdventure的新基准,包含34款Flash冒险游戏,用于测试AI智能体完成完整故事线的能力,并设计了一种利用长期线索记忆的智能体框架来提升任务解决效果,实验表明现有智能体仍与人类表现存在明显差距。