arXiv ID:
2512.18470
arXiv 提交日期: 2025-12-20
SWE-EVO:在长周期软件演化场景中评估代码智能体 / SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios
1️⃣ 一句话总结
这篇论文提出了一个名为SWE-EVO的新基准测试,它模拟了需要跨多个文件进行多步骤修改的真实软件长期演化任务,并发现当前最先进的AI编程模型在此类复杂任务上的表现远低于处理单一、孤立问题的能力。