arXiv ID:
2606.15300
arXiv 提交日期: 2026-06-13
CODA-BENCH:代码智能体能否处理数据密集型任务? / CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?
1️⃣ 一句话总结
本文提出了CODA-BENCH,第一个同时评估智能体在代码编写和大规模数据处理两方面能力的基准测试,发现当前最先进的智能体在面对真实数据密集型任务时,成功率仅有61.1%,暴露了其在数据发现与代码执行整合能力上的明显不足。