arXiv ID:
2602.10975
arXiv 提交日期: 2026-02-11
FeatureBench:面向复杂功能开发的智能体编码能力基准测试 / FeatureBench: Benchmarking Agentic Coding for Complex Feature Development
1️⃣ 一句话总结
这篇论文提出了一个名为FeatureBench的新基准测试,用于全面评估AI编程助手在开发完整软件功能时的真实能力,它通过自动从开源项目中提取可执行的测试任务,发现当前最先进的AI模型在复杂功能开发上的成功率仍然很低,仅为11%。