arXiv ID:
2601.04767
AT$^2$PO:基于树搜索的智能体回合制策略优化 / AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search
1️⃣ 一句话总结
这篇论文提出了一个名为AT$^2$PO的新框架,它通过结合树搜索和回合制学习,有效解决了多轮任务中智能体探索不足、奖励分配困难等关键问题,从而显著提升了智能体在复杂任务中的表现。