arXiv ID:
2602.10814
arXiv 提交日期: 2026-02-11
看、规划、点击:在Scratch中评估多模态图形界面智能体 / See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch
1️⃣ 一句话总结
这篇论文提出了一个名为ScratchWorld的新评估基准,用于全面测试AI智能体在Scratch图形化编程环境中通过操作界面来构建、调试和扩展程序的能力,并发现当前智能体在高级规划与精细界面操作之间存在明显差距。