arXiv ID:
2512.12730
NL2Repo-Bench:面向编码智能体长周期仓库生成能力的评估基准 / NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
1️⃣ 一句话总结
这篇论文提出了一个名为NL2Repo-Bench的新基准测试,专门用于评估编码智能体根据单一自然语言需求文档、从头开始构建完整可安装Python软件库的长期综合能力,实验发现当前最先进的模型在此任务上表现不佳,揭示了长期规划与跨文件协调是自主编程面临的核心挑战。