arXiv ID:
2604.12379
arXiv 提交日期: 2026-04-14
超越输出正确性:在编码任务中基准测试和评估大型语言模型的推理能力 / Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks
1️⃣ 一句话总结
这篇论文提出了首个专门用于评估大语言模型在多种编码任务(如生成、总结、分类)中推理质量的基准测试CodeRQ-Bench,并基于此设计了一个名为VERA的两阶段评估器,该评估器通过结合证据验证和模糊感知评分修正,显著提升了推理质量评估的准确性。