arXiv ID:
2606.05080
AutoLab:前沿模型能否解决长周期自动化研究与工程任务? / AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
1️⃣ 一句话总结
本文提出了AutoLab,一个包含36个真实任务(如系统优化、模型开发等)的基准测试,通过让AI模型在有限时间内反复迭代改进已有方案,发现决定模型成败的关键不是首次尝试的好坏,而是持续测试、修改和吸收反馈的毅力,以此揭示了当前多数前沿模型缺乏长期规划和持久迭代能力的问题。