← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm systems

📄 论文总结

中英文论文题目：
AutoCodeBench: Automated and Diverse Benchmark for Code Generation with Multilingual Evaluation
《AutoCodeBench：自动化多语言代码生成评测基准》

1️⃣ 一句话总结

该论文提出了AutoCodeBench——首个完全自动化构建的多语言代码生成评测基准，通过LLM与沙箱交互的逆向问题生成方法（AutoCodeGen），解决了传统基准依赖人工标注、语言分布不均的局限性，并验证了其在评估大模型多语言编程能力（尤其是低资源语言和复杂逻辑任务）上的显著优势。

2️⃣ 论文创新点

1. 自动化基准构建框架（AutoCodeGen）

创新点：通过LLM生成测试输入→沙箱验证输出→逆向合成问题的闭环流程，完全无需人工标注。
改进：传统基准（如HumanEval）依赖人工编写测试用例，而AutoCodeGen通过动态验证确保数据质量，且支持20种语言。
意义：首次实现高难度、多语言均衡（3,920问题）的代码生成基准自动化构建，效率提升10倍以上。

2. 多语言沙箱与逆向问题生成

创新点：设计支持20+语言的高并发沙箱环境，结合"Solution→Test→Problem→Filter"四步流程生成问题。
改进：传统方法直接生成测试用例易出现边缘案例遗漏，而逆向生成通过执行验证保证测试覆盖率。
意义：生成的问题平均长度达498词，60%为高难度任务，显著提升评测挑战性。

3. 动态难度控制与多样性保障

创新点：引入三阶段过滤（采样→LLM质量评估→多样性标签），并利用中等模型（DeepSeek-Coder-V2-Lite）过滤简单问题。
改进：现有基准缺乏系统性难度控制，而AutoCodeBench通过规范化问题描述（6项标准）和多样性采样（14类任务）确保数据均衡。
意义：构建的ACB-Lite子集能放大模型间差异，更高效比较模型性能。

4. 多逻辑问题评测集（AutoCodeBench_MultiLogic）

创新点：专设1,622个需同时实现多个功能的复杂逻辑问题，挑战模型多任务处理能力。
改进：现有基准多关注单功能任务，而该评测集揭示模型在复杂场景下的性能下降（如Claude Opus 4下降5.1%）。
意义：为评估模型实际工程能力提供新维度。

3️⃣ 主要结果与价值

实验结果亮点

高难度设计：所有模型在完整版ACB上平均Pass@1≤53%，Claude Opus 4（推理模式）最优也仅62%。
低资源语言差异：模型在Racket/Elixir等语言上Pass@1差距达16.7%（45.3~62.0），远高于Python/C++的3.4%（50.4~53.8）。
推理模式优势：Claude Opus 4启用"Think"模式后，Pass@1提升7.2%，尤其在多逻辑任务上效果显著。

实际应用价值

模型开发：揭示了当前LLMs对低资源语言支持不足，指导后续训练数据优化。
工程实践：ACB-Lite可快速筛选适合特定语言的模型（如Claude Opus 4在Shell任务中领先）。
学术研究：开源的多语言沙箱和自动化流程为后续基准构建提供标准化工具。

4️⃣ 术语表

AutoCodeBench (ACB)：论文提出的多语言代码生成基准，含完整版、简化版（ACB-Lite）和多逻辑子集（ACB_MultiLogic）。
AutoCodeGen：基于LLM与沙箱交互的自动化基准生成工作流。
Pass@1/Pass@K：模型首次/K次尝试生成正确代码的概率，核心评估指标。
LLM-Sandbox Interaction：通过LLM生成测试输入+沙箱验证输出的数据合成方法。
多语言沙箱：支持20+语言安全执行的并发验证环境。
推理模式（Reasoning Mode）：模型通过链式思考（如"Think"模式）解决复杂问题的策略。

📄 打开原文 PDF