arXiv ID:
2604.25862
arXiv 提交日期: 2026-04-28
RESTestBench:一个用于评估大语言模型从自然语言需求生成的REST API测试用例有效性的基准 / RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements
1️⃣ 一句话总结
本文提出了RESTestBench基准测试,包含三个REST服务及其人工验证的自然语言需求,并通过引入基于需求的变异测试指标,评估了大语言模型在生成测试用例时,是否真正能检验软件的功能行为,结果发现当模型与有缺陷的代码交互时,测试有效性会显著下降,尤其对模糊需求影响更大。