arXiv ID:
2512.15699
arXiv 提交日期: 2025-12-17
FrontierCS:为不断进化的智能体设计不断演进的挑战 / FrontierCS: Evolving Challenges for Evolving Intelligence
1️⃣ 一句话总结
这篇论文提出了一个名为FrontierCS的新型计算机科学基准测试,它包含156个开放式问题,这些问题没有已知的最优解但可以客观评估方案质量,旨在衡量AI模型在解决前沿复杂问题(如算法设计和系统研究)上的真实能力,并发现当前最先进的模型仍远落后于人类专家。