arXiv ID:
2606.09450
定理基准:评估大语言模型在形式化数学定理证明中的表现 / TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics
1️⃣ 一句话总结
本文提出了一个名为TheoremBench的Lean4形式化数学基准测试,通过包含经典定理及其子定理的结构化任务,更细致地评估大语言模型的定理证明能力,并揭示了现有模型偏向于解决简单子问题、依赖冗长策略而非高效证明计划的问题。