arXiv ID:
2603.15617
arXiv 提交日期: 2026-03-16
HorizonMath:通过自动验证衡量AI在数学发现上的进展 / HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification
1️⃣ 一句话总结
这篇论文提出了一个名为HorizonMath的基准测试,包含100多个未解决的数学问题,旨在通过自动验证来评估AI是否能在数学研究中做出真正的新发现,并初步展示了先进模型在其中两个问题上取得了优于已知结果的潜在突破。