arXiv ID:
2603.27745
arXiv 提交日期: 2026-03-29
代码仓库中的“绣花针”:一个评估AI生成代码仓库编辑可维护性的基准 / Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits
1️⃣ 一句话总结
这篇论文提出了一个名为NITR的新基准测试框架,专门用于评估AI编程助手在完成代码修改任务时,是否能在保证功能正确的同时,维持代码的模块化、可测试性等长期可维护性,结果发现当前主流AI系统在这方面的表现还很薄弱,尤其是在处理复杂的架构性修改时。