arXiv ID:
2606.12344
Claw-SWE-Bench:用于评估类OpenClaw智能体框架在编码任务上的基准测试 / Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
1️⃣ 一句话总结
该论文提出了Claw-SWE-Bench,一个多语言编码任务基准测试,通过统一的评估协议和成本核算,揭示了智能体框架(如OpenClaw)的设计比起底层模型对编码性能影响更大,并提供了标准化的测试集来公平比较不同框架的表现。