arXiv ID:
2606.10394
arXiv 提交日期: 2026-06-09
STAGE-Claw:面向真实场景的基于状态的自助代理基准测试 / STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios
1️⃣ 一句话总结
本文提出了STAGE-Claw,一个能自动构建真实个人计算场景并评估AI代理的框架,它通过检查最终系统状态而非仅看文本回复来衡量代理表现,并基于40个真实任务对11个前沿模型进行了测试与分析。