arXiv ID:
2605.13167
arXiv 提交日期: 2026-05-13
GeoBuildBench:一个面向自然语言交互式可执行几何构建的基准测试 / GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language
1️⃣ 一句话总结
该论文提出了一个新基准GeoBuildBench,旨在测试AI模型能否根据自然语言描述,像人一样一步步用程序构建出符合几何条件的图形,实验发现现有模型虽能部分成功,但常犯结构性错误且难以自我修正,凸显了真正可执行的几何推理仍是重大挑战。