🤖 系统
11-30 17:30
📄 论文总结
扩展多轮离线强化学习与多智能体树搜索用于大型语言模型步骤证明器 / Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers
1️⃣ 一句话总结
这篇论文提出了一个名为BFS-Prover-V2的系统,通过结合创新的多轮离线强化学习训练方法和多智能体分层搜索架构,显著提升了大型语言模型在自动定理证明中的性能,并在数学证明基准测试中取得了领先成果。