arXiv ID:
2601.11868
终端基准测试:在命令行界面中对智能体进行困难、真实任务的基准评估 / Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
1️⃣ 一句话总结
这篇论文提出了一个名为Terminal-Bench 2.0的困难基准测试,它包含89个源自真实工作流程的命令行任务,用于评估AI智能体在复杂、现实场景中的能力,结果显示当前前沿模型的得分低于65%,并指出了改进方向。