arXiv ID:
2601.11044
arXiv 提交日期: 2026-01-16
AgencyBench:在百万令牌真实世界场景中评测自主智能体的前沿能力 / AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
1️⃣ 一句话总结
这篇论文提出了一个名为AgencyBench的新基准测试,它通过模拟真实、复杂且耗时的任务,自动评估不同AI智能体的综合能力,发现闭源模型整体表现优于开源模型,并揭示了智能体性能与其运行框架紧密相关。