arXiv ID:
2605.02178
arXiv 提交日期: 2026-05-04
T²PO:面向稳定多轮智能体强化学习的不确定性引导探索控制 / T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为T²PO的方法,通过在单词和对话轮次两个层面动态监控模型的不确定性,智能地控制探索行为,从而有效解决了多轮强化学习训练中因无效信息收集而导致的模型崩溃问题,并在多个复杂交互任务中提升了训练的稳定性和最终表现。