arXiv最新AI论文速览速学

🔍

标签: #formal mathematics ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics 06-09

arXiv ID: 2606.09450

arXiv 提交日期: 2026-06-08

llm machine learning benchmark theorem proving formal mathematics lean4 evaluation proof structure

定理基准：评估大语言模型在形式化数学定理证明中的表现 / TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics

1️⃣ 一句话总结

本文提出了一个名为TheoremBench的Lean4形式化数学基准测试，通过包含经典定理及其子定理的结构化任务，更细致地评估大语言模型的定理证明能力，并揭示了现有模型偏向于解决简单子问题、依赖冗长策略而非高效证明计划的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13171

arXiv 提交日期: 2026-05-13

aigc benchmark machine learning automated reasoning lean 4 formal mathematics proof discovery evalution

形式化猜想：一个用于数学可验证发现的开放且不断发展的基准 / Formal Conjectures: An Open and Evolving Benchmark for Verified Discovery in Mathematics

1️⃣ 一句话总结

该论文提出了一个名为“形式化猜想”（Formal Conjectures）的、持续更新的数学基准测试集，包含2615个用Lean 4语言形式化的数学问题，其中既有未解决的开放猜想（用于检验AI的推理发现能力），也有已解决的难题（用于验证证明的自动形式化能力），并通过社区协作和AI生成的证明来确保问题表述的准确性，从而为推动自动化推理系统在高等数学中的应用提供了一个标准化测试平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14027

arXiv 提交日期: 2026-01-20

agents llm systems theorem proving formal mathematics coding agents autonomous reasoning tool integration

Numina-Lean-Agent：一个用于形式化数学的开放通用智能体推理系统 / Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

1️⃣ 一句话总结

这篇论文提出了一个名为Numina-Lean-Agent的创新系统，它直接利用一个通用的代码生成AI作为核心推理引擎，无需专门训练，就能在形式化数学证明中取得顶尖性能，并成功解决了复杂的数学定理和竞赛题目。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09450

1️⃣ 一句话总结

arXiv ID: 2605.13171

1️⃣ 一句话总结

arXiv ID: 2601.14027

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09450 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13171 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14027 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09450

arXiv ID: 2605.13171

arXiv ID: 2601.14027