arXiv ID:
2602.14917
arXiv 提交日期: 2026-02-16
BFS-PO:针对大型推理模型的最佳优先搜索算法 / BFS-PO: Best-First Search for Large Reasoning Models
1️⃣ 一句话总结
这篇论文提出了一种名为BFS-PO的新算法,它通过最佳优先搜索策略来训练大型推理模型,旨在解决模型因过度思考而产生的冗长回答和高计算成本问题,从而让模型在提高答案准确率的同时,生成更简洁的推理过程。