← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm systems
详细标签: competitive programming benchmarking code generation expert validation performance metrics 或 搜索:

📄 论文总结

中英文论文题目
AetherCode: A High-Quality Benchmark for Evaluating Large Language Models in Competitive Programming
AetherCode:一个用于评估大型语言模型在编程竞赛中的高质量基准测试


1️⃣ 一句话总结

这篇论文提出了AetherCode基准测试,通过系统收集高难度编程竞赛题目(如IOI和ICPC)并构建专家验证的高质量测试用例,解决了现有基准测试在题目难度和测试用例质量上的局限性,为准确评估大型语言模型(LLMs)在复杂编程任务中的能力提供了新标准。


2️⃣ 论文创新点

1. 首个结合高难度竞赛题目与专家验证的基准测试

2. 多维度分类与评估框架

3. 揭示推理模型的显著优势


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF