arXiv ID:
2601.22776
arXiv 提交日期: 2026-01-30
轮次阶段感知策略优化:解决多轮工具集成推理中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization
1️⃣ 一句话总结
本文提出了一种名为TSPO(轮次阶段感知策略优化)的新型强化学习框架,通过其核心机制——首次出现潜在奖励(FOLR),有效解决了多轮工具集成推理中存在的‘过程级奖励同质化’和‘组内奖励同质化’双重困境,无需外部奖励模型或额外标注,即可显著提升模型在多轮推理任务中的性能。