← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm systems
详细标签: code generation automated benchmarking multilingual evaluation low-resource languages complex logic tasks 或 搜索:

📄 论文总结


1️⃣ 一句话总结

该论文提出了AutoCodeBench——首个完全自动化构建的多语言代码生成评测基准,通过LLM与沙箱交互的逆向问题生成方法(AutoCodeGen),解决了传统基准依赖人工标注、语言分布不均的局限性,并验证了其在评估大模型多语言编程能力(尤其是低资源语言和复杂逻辑任务)上的显著优势。


2️⃣ 论文创新点

1. 自动化基准构建框架(AutoCodeGen)

2. 多语言沙箱与逆向问题生成

3. 动态难度控制与多样性保障

4. 多逻辑问题评测集(AutoCodeBench_MultiLogic)


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF