arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.01346

🤖 系统

10-07 11:09

agents theory systems

theorem proving automated reasoning monte carlo tree search formal verification mathematical reasoning

📄 论文总结

Aristotle：融合形式化验证与非形式化推理的AI定理证明系统

Aristotle: An AI Theorem Proving System Integrating Formal Verification and Informal Reasoning

1️⃣ 一句话总结

Aristotle是一个在2025年国际数学奥林匹克竞赛中达到金牌级别表现的AI定理证明系统，通过整合形式化验证的可靠性与非形式化推理的灵活性，实现了复杂数学问题的自动化证明。

2️⃣ 论文创新点

1. 三组件融合架构

创新点是什么：整合基于蒙特卡洛树搜索的Lean证明搜索、基于引理的非形式化推理系统和专用几何求解器
与已有方法的区别/改进：结合形式化验证的可靠性与非形式化推理的灵活性
为什么有意义：实现IMO级别定理证明的突破性性能

2. 基于MCTS的证明搜索算法

创新点是什么：使用高度并行的蒙特卡洛图搜索算法进行Lean证明搜索，结合学习价值函数和生成策略
与已有方法的区别/改进：在Expert Iteration和AlphaZero基础上扩展，支持多目标状态管理和非正式证明集成
为什么有意义：能够证明大学和奥数级别的数学问题，并可集成到外部推理流程中

3. 状态与动作等价性处理

创新点是什么：通过识别目标表达式、本地上下文和变量名相同的状态，以及表面不同的动作，提升计算效率
与已有方法的区别/改进：在图搜索中合并等价状态和动作，减少冗余计算
为什么有意义：优化搜索过程，避免重复探索相似证明路径，提高整体性能

4. 基于引理的推理系统

创新点是什么：通过自然语言查询管道生成候选引理，并利用搜索算法依次尝试这些引理来增强证明能力
与已有方法的区别/改进：通过生成有用的正确形式化引理，显著提高了搜索算法的性能
为什么有意义：允许利用高层非形式化推理来增强模型性能，支持迭代应用和形式反馈

5. 测试时训练机制

创新点是什么：在推理时从自身经验中学习的机制，包括尝试解决问题和从搜索轨迹中重新训练模型
与已有方法的区别/改进：提高了问题解决效率和专业化程度，能够解决基础模型在相同搜索预算下无法解决的难题
为什么有意义：特别有利于处理新数学抽象和引理生成，通过从初始尝试中学习来构建更鲁棒的API

3️⃣ 主要结果与价值

实验结果亮点

在2025年IMO中解决了除最后一道题外的所有问题，达到金牌级别表现
比AlphaGeometry-1快达500倍，在AG-30问题上表现优异
能够自主定义辅助概念，展示类似人类数学家的创造性推理能力
成功证明Mathlib中缺失的重要定理，并参与其他项目的验证

实际应用价值

能够发现并修正教材错误，提高教育资源的可靠性
填补形式化数学库的空白，验证真实世界数学问题
作为数学研究助手处理高级数学主题，促进形式化验证的发展
扩展AI在专业数学领域的应用范围

4️⃣ 术语表

Aristotle：结合形式化验证与非形式化推理的AI定理证明系统，在2025年IMO中取得金牌级表现
Lean：机器可验证的证明语言，Aristotle系统的核心形式化工具
Monte Carlo Tree Search (MCTS)：一种基于随机采样的树搜索算法，结合学习价值函数指导证明搜索，常用于复杂问题求解
PUCT：Predictor Upper Confidence bound applied to Trees，一种结合先验策略的树搜索算法，用于平衡探索和利用
TTT：测试时训练，在推理时从自身经验中学习的机制
Lemma-based Reasoning：基于引理的推理系统，通过生成和尝试候选引理来增强证明能力
Yuclid：基于C++的快速DD/AR（演绎数据库和代数推理）引擎，用于几何问题求解
DD/AR：演绎数据库和代数推理，结合逻辑推理和代数方法进行几何证明
IMO：国际数学奥林匹克竞赛，包含代数、数论、几何和组合数学六个问题
REPL：基于Lean的交互式环境，用于管理目标状态、应用策略和验证证明

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2509.06493

🤖 系统

09-09 21:06

agents theory

theorem proving expert iteration multi-agent search reinforcement learning automated reasoning

📄 论文总结

BFS-Prover-V2：基于多智能体搜索与专家迭代的定理证明系统

BFS-Prover-V2: A Multi-Agent Search and Expert Iteration System for Theorem Proving

1️⃣ 一句话总结

BFS-Prover-V2是一个针对Lean4中神经定理证明的综合训练和推理系统，通过多阶段专家迭代框架和规划器增强的多智能体搜索架构，在数学定理证明任务中实现了最先进的性能。

2️⃣ 论文创新点

1. 多回合离线强化学习框架

创新点是什么：受AlphaZero启发的多阶段专家迭代流程，包含自适应战术级数据过滤和周期性重训练机制
与已有方法的区别/改进：克服LLM智能体在长期强化学习中的性能平台期问题
为什么有意义：实现模型从简单问题到复杂定理的持续能力提升

2. 规划器增强的多智能体搜索架构

创新点是什么：使用通用推理模型作为高层规划器迭代分解复杂定理为子目标，通过并行证明智能体和共享证明缓存实现高效协作
与已有方法的区别/改进：大幅减少搜索空间，提升推理效率
为什么有意义：在形式数学基准上达到最先进性能（MiniF2F 95.08%，ProofNet 41.4%）

3. 基于困惑度的自适应数据过滤

创新点是什么：根据模型对策略的困惑度分布将训练数据分为低困惑度尾部、高困惑度尾部和中心分布三个区域
与已有方法的区别/改进：只选择中心分布的数据进行训练，避免过于简单或复杂的数据
为什么有意义：防止过拟合和幻觉，确保模型在能力边缘持续学习

4. 周期性软重置重训练

创新点是什么：定期使用当前专家模型重新解决所有过往问题，生成更简洁、直接的证明
与已有方法的区别/改进：通过重新合成和去噪过程增加模型熵值，重置探索潜力
为什么有意义：帮助模型逃离局部最优，解决性能平台期问题，保持对新难题的探索能力

3️⃣ 主要结果与价值

实验结果亮点

在MiniF2F测试集上达到95.08%的成功率（验证集95.49%）
在ProofNet测试集上达到41.4%的成功率
相比其他领先证明器（如r-V2-671B、Kimina-Prover-72B等）表现出显著性能提升

实际应用价值

为形式化数学证明提供了高效的自动化工具
系统能够作为真正的Lean协导器，在证明过程中随时建议下一个逻辑策略
多智能体架构能够处理单体证明器难以解决的复杂证明问题

4️⃣ 术语表

BFS-Prover-V2：针对LLM定理证明训练和推理扩展问题设计的系统，采用最佳优先搜索算法和多阶段专家迭代训练
专家迭代（Expert Iteration）：一种强化学习过程，模型作为专家生成证明，然后利用生成的数据自我改进
最佳优先树搜索（BFS）：用于探索可能证明路径空间的搜索算法
规划器-证明器范式（Planner-Prover Paradigm）：分层推理架构，规划器负责战略分解，证明器负责具体证明
困惑度分布：模型对策略的困惑度概率分布，用于评估训练数据的价值
动态重规划（Dynamic Replanning）：当证明器无法在计算预算内证明子目标时，重新查询规划器生成修订计划的机制
MiniF2F：高中数学竞赛测试基准，用于评估数学定理证明系统性能

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.01346

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 三组件融合架构

2. 基于MCTS的证明搜索算法

3. 状态与动作等价性处理

4. 基于引理的推理系统

5. 测试时训练机制

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2509.06493

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 多回合离线强化学习框架

2. 规划器增强的多智能体搜索架构

3. 基于困惑度的自适应数据过滤

4. 周期性软重置重训练

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.01346 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 三组件融合架构

2. 基于MCTS的证明搜索算法

3. 状态与动作等价性处理

4. 基于引理的推理系统

5. 测试时训练机制

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2509.06493 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 多回合离线强化学习框架

2. 规划器增强的多智能体搜索架构

3. 基于困惑度的自适应数据过滤

4. 周期性软重置重训练

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2510.01346

2509.06493