arXiv最新AI论文速览速学

🔍

标签: #theorem proving ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics 06-09

arXiv ID: 2606.09450

arXiv 提交日期: 2026-06-08

llm machine learning benchmark theorem proving formal mathematics lean4 evaluation proof structure

定理基准：评估大语言模型在形式化数学定理证明中的表现 / TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics

1️⃣ 一句话总结

本文提出了一个名为TheoremBench的Lean4形式化数学基准测试，通过包含经典定理及其子定理的结构化任务，更细致地评估大语言模型的定理证明能力，并揭示了现有模型偏向于解决简单子问题、依赖冗长策略而非高效证明计划的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26311

arXiv 提交日期: 2026-04-29

machine learning agents theorem proving lemma library wake-sleep program induction agentic framework

DreamProver：通过“觉醒-睡眠”定理证明智能体演化可迁移的引理库 / DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent

1️⃣ 一句话总结

该论文提出了一种名为DreamProver的新型AI框架，它通过模拟“觉醒-睡眠”的循环过程，让定理证明智能体在尝试证明定理的同时，自动发现、抽象和优化出一套可复用的引理库，从而显著提升在陌生数学问题上的证明成功率并降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20209

arXiv 提交日期: 2026-04-22

llm reinforcement learning self-play scaling theorem proving reward hacking language model

自我引导的自我博弈扩展方法 / Scaling Self-Play with Self-Guidance

1️⃣ 一句话总结

本文提出了一种名为自我引导自我博弈（SGS）的新算法，让语言模型在自我对弈中同时扮演求解器、出题者和评价者三个角色，通过评价者筛选出高质量、有价值的题目来防止出题者生成无意义难题，从而让模型能在更长时间训练中持续进步，并在数学定理证明任务中表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07455

arXiv 提交日期: 2026-04-08

llm natural language processing systems autoformalization theorem proving interactive theorem prover mathematics formalization isabelle/hol

Munkres《一般拓扑学》在Isabelle/HOL中的自动形式化 / Munkres' General Topology Autoformalized in Isabelle/HOL

1️⃣ 一句话总结

这篇论文展示了利用大型语言模型辅助，在24天内将Munkres的《一般拓扑学》教科书几乎全部内容自动形式化为超过8.5万行可验证的代码，证明了这种方法是可行、快速且成本较低的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01483

arXiv 提交日期: 2026-04-01

agents systems theory formal verification financial compliance neural-symbolic deterministic guardrails theorem proving

类型检查合规性：使用Lean 4定理证明为金融智能体系统构建确定性护栏 / Type-Checked Compliance: Deterministic Guardrails for Agentic Financial Systems Using Lean 4 Theorem Proving

1️⃣ 一句话总结

这篇论文提出了一种名为Lean-Agent Protocol的新方法，它利用Lean 4定理证明器，将复杂的金融监管规则转化为可自动验证的数学定理，从而为不可预测的AI金融系统提供像密码学一样可靠的确定性合规保障。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14628

arXiv 提交日期: 2026-03-15

llm theory benchmark theorem proving formal verification cryptographic assembly proof synthesis hol light

s2n-bignum-bench：一个用于评估大语言模型底层代码推理能力的实用基准 / s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为s2n-bignum-bench的新基准，它基于一个工业级密码库的已验证汇编代码，用于测试大语言模型能否像人类专家一样，为真实的底层程序自动生成能被形式化工具接受的证明，从而评估其超越纯数学竞赛的实际推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14027

arXiv 提交日期: 2026-01-20

agents llm systems theorem proving formal mathematics coding agents autonomous reasoning tool integration

Numina-Lean-Agent：一个用于形式化数学的开放通用智能体推理系统 / Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

1️⃣ 一句话总结

这篇论文提出了一个名为Numina-Lean-Agent的创新系统，它直接利用一个通用的代码生成AI作为核心推理引擎，无需专门训练，就能在形式化数学证明中取得顶尖性能，并成功解决了复杂的数学定理和竞赛题目。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17260

arXiv 提交日期: 2025-12-19

llm agents theory theorem proving reinforcement learning formal verification mathematical reasoning lean theorem prover

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明 / Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

1️⃣ 一句话总结

这项研究提出了一个名为Seed-Prover 1.5的定理证明模型，它通过让AI模型在形式化数学环境中不断试错和积累经验来学习，从而高效地解决了从本科到博士级别的数学难题，其性能超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22570

arXiv 提交日期: 2025-11-27

llm model training theory mathematical reasoning theorem proving self-verification reinforcement learning proof generation

DeepSeekMath-V2：迈向可自我验证的数学推理 / DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为DeepSeekMath-V2的新模型，它通过让AI自己检查和验证推理过程来解决数学问题，而不是只追求最终答案正确，从而在需要严格逻辑推导的数学竞赛中取得了顶尖成绩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.03108

arXiv 提交日期: 2025-11-05

natural language processing benchmark model evaluation theorem proving autoformalization mathematical reasoning formal verification dataset evaluation

重访miniF2F-Lean：审视局限性与规划前进道路 / miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

1️⃣ 一句话总结

这篇论文通过分析数学奥林匹克竞赛基准数据集miniF2F中形式化与非形式化问题之间的差异，修复了其中一半以上的错误与不一致性，并发布改进版miniF2F-v2，显著提升了AI模型从理解题目到完成证明的全流程准确率，为形式化推理领域提供了更可靠的评估标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09450

1️⃣ 一句话总结

arXiv ID: 2604.26311

1️⃣ 一句话总结

arXiv ID: 2604.20209

1️⃣ 一句话总结

arXiv ID: 2604.07455

1️⃣ 一句话总结

arXiv ID: 2604.01483

1️⃣ 一句话总结

arXiv ID: 2603.14628

1️⃣ 一句话总结

arXiv ID: 2601.14027

1️⃣ 一句话总结

arXiv ID: 2512.17260

1️⃣ 一句话总结

arXiv ID: 2511.22570

1️⃣ 一句话总结

arXiv ID: 2511.03108

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09450 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26311 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20209 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07455 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01483 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14628 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17260 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22570 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.03108 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09450

arXiv ID: 2604.26311

arXiv ID: 2604.20209

arXiv ID: 2604.07455

arXiv ID: 2604.01483

arXiv ID: 2603.14628

arXiv ID: 2601.14027

arXiv ID: 2512.17260

arXiv ID: 2511.22570

arXiv ID: 2511.03108