arXiv ID:
2601.22776
arXiv 提交日期: 2026-01-30
TSPO:打破多轮搜索策略优化中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为TSPO的新方法,通过为模型推理过程中首次出现正确答案的步骤分配奖励,有效解决了现有强化学习方法在多轮搜索任务中因奖励信号过于稀疏和粗糙而导致的训练效率低下问题,显著提升了模型性能。