arXiv ID:
2601.11077
arXiv 提交日期: 2026-01-16
ABC-Bench:现实世界开发中智能体后端编码的基准测试 / ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development
1️⃣ 一句话总结
这篇论文提出了一个名为ABC-Bench的新基准测试,专门用于评估AI智能体在真实后端开发全流程(从代码探索到服务部署)中的综合编码能力,发现当前最先进的模型在这类实际工程任务上仍表现不佳。