arXiv ID:
2601.11037
arXiv 提交日期: 2026-01-16
BAPO:面向可靠智能搜索的边界感知策略优化 / BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search
1️⃣ 一句话总结
这篇论文提出了一个名为BAPO的新强化学习框架,旨在让基于大语言模型的智能搜索系统学会在遇到证据不足或推理能力达到极限时,主动承认‘我不知道’,从而在保持高准确率的同时,显著提升其回答的可靠性。