arXiv ID:
2604.08523
arXiv 提交日期: 2026-04-09
ClawBench:AI智能体能否完成日常在线任务? / ClawBench: Can AI Agents Complete Everyday Online Tasks?
1️⃣ 一句话总结
这篇论文提出了一个名为ClawBench的新型评估框架,它包含153个真实网站上的日常在线任务,用于测试AI智能体的实际应用能力,结果发现当前最先进的模型也只能完成其中一小部分任务。