🤖 系统
11-30 17:47
📄 论文总结
AMO-Bench:大型语言模型在高中数学竞赛中仍表现不佳 / AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
1️⃣ 一句话总结
这篇论文提出了一个高难度的数学推理基准测试AMO-Bench,发现当前最先进的大型语言模型在解决奥林匹克级别数学问题时准确率仍然很低,最高仅为52.4%,表明AI在复杂数学推理方面仍有很大提升空间。