arXiv ID:
2604.26923
arXiv 提交日期: 2026-04-29
ClassEval-Pro:面向跨领域类级代码生成的基准测试 / ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation
1️⃣ 一句话总结
本文提出了一个名为ClassEval-Pro的自动化构建的基准测试,包含来自11个领域的300个类级编程任务,用于评估大语言模型在构建完整类代码方面的能力,结果发现当前最强模型仅能通过45.6%的任务,且方法间的协调是核心瓶颈。