arXiv ID:
2606.25530
arXiv 提交日期: 2026-06-24
评估大语言模型在真实软件性能优化中的表现 / Evaluating LLMs on Real-World Software Performance Optimization
1️⃣ 一句话总结
本文提出了一个新基准SWE-Pro,通过102个真实开源项目中的专家优化案例,全面评估了当前大语言模型在软件性能优化上的能力,发现它们在减少运行时间和内存占用方面与专家水平存在巨大差距。