arXiv ID:
2512.17419
arXiv 提交日期: 2025-12-19
SWE-Bench++:一个用于自动化生成多语言软件工程基准测试的框架 / SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
1️⃣ 一句话总结
SWE-Bench++是一个自动化框架,能够从真实的GitHub拉取请求中大规模、多语言地生成可执行的软件工程基准测试任务,并通过创新的状态差分测试预言机和提示引导的轨迹合成等方法,显著提升了基准测试的规模、多样性、可靠性和对模型改进的实用性。