arXiv ID:
2604.12268
arXiv 提交日期: 2026-04-14
CodeSpecBench:用于评估大语言模型生成可执行行为规范的基准 / CodeSpecBench: Benchmarking LLMs for Executable Behavioral Specification Generation
1️⃣ 一句话总结
这篇论文提出了一个名为CodeSpecBench的新基准,用于评估大语言模型是否能生成准确且完整的可执行行为规范(即用代码定义程序的前置和后置条件),研究发现,即使是当前最先进的模型,在理解复杂程序语义和生成规范方面也面临巨大挑战,其表现远不如直接生成代码。