TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

📄 Abstract - TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

Multi-turn tool-integrated reasoning enables Large Language Models (LLMs) to solve complex tasks through iterative information retrieval. However, current reinforcement learning (RL) frameworks for search-augmented reasoning predominantly rely on sparse outcome-level rewards, leading to a "Double Homogenization Dilemma." This manifests as (1) Process homogenization, where the thinking, reasoning, and tooling involved in generation are ignored. (2) Intra-group homogenization, coarse-grained outcome rewards often lead to inefficiencies in intra-group advantage estimation with methods like Group Relative Policy Optimization (GRPO) during sampling. To address this, we propose Turn-level Stage-aware Policy Optimization (TSPO). TSPO introduces the First-Occurrence Latent Reward (FOLR) mechanism, allocating partial rewards to the step where the ground-truth answer first appears, thereby preserving process-level signals and increasing reward variance within groups without requiring external reward models or any annotations. Extensive experiments demonstrate that TSPO significantly outperforms state-of-the-art baselines, achieving average performance gains of 24% and 13.6% on Qwen2.5-3B and 7B models, respectively.

轮次阶段感知策略优化：解决多轮工具集成推理中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

1️⃣ 一句话总结

本文提出了一种名为TSPO（轮次阶段感知策略优化）的新型强化学习框架，通过其核心机制——首次出现潜在奖励（FOLR），有效解决了多轮工具集成推理中存在的‘过程级奖励同质化’和‘组内奖励同质化’双重困境，无需外部奖励模型或额外标注，即可显著提升模型在多轮推理任务中的性能。

2️⃣ 论文创新点

1. TSPO框架

创新点：一种用于优化多轮工具集成推理的强化学习新框架，通过引入FOLR机制来解决双重同质化困境。
区别/改进：改进了现有强化学习框架仅依赖稀疏结局级奖励的缺陷，为中间步骤提供奖励信号。
意义：无需额外标注或外部奖励模型，即可有效保留过程信息并提升组内学习效率，显著提升模型在多轮推理任务中的性能。

2. 首次出现潜在奖励（FOLR）机制

创新点：一种奖励分配机制，检测并奖励首次出现真实答案的轮次，即使最终答案是错误的。
区别/改进：解决了过程同质化问题，为有益的中间步骤（如成功信息获取）提供奖励信号；同时增加了组内奖励方差，缓解了组内同质化导致的优势消失问题。
意义：核心创新点，以低成本方式为多轮推理过程提供了细粒度的、有意义的奖励信号，是TSPO性能提升的关键。

3. 双重同质化困境的识别与形式化

创新点：识别并形式化了多轮强化学习中存在的两个耦合问题：过程级奖励同质化和组内奖励同质化。
区别/改进：揭示了传统方法（如结果级RL和GRPO）的固有缺陷，为提出新方法提供了理论基础。
意义：深化了对多轮RL优化挑战的理解，指明了改进方向。

4. 针对全错误组的轮次级奖励分配

创新点：TSPO通过组归一化计算逐轮优势，区分部分正确（Near-Miss）与完全失败，在全错误的组中恢复组内方差，而GRPO对两者均赋予零优势。
区别/改进：改进了传统组级奖励分配方法，使部分正确的轨迹能贡献梯度，提升训练效率。
意义：解决了全错误组中奖励方差为零的问题，增强了模型在困难样本上的学习能力。

3️⃣ 主要结果与价值

结果亮点

在多个多样化QA数据集（如NQ、TriviaQA、PopQA、HotpotQA等）上的实验表明，TSPO显著优于现有基线方法（包括ZeroSearch、MT-PPO、StepSearch等）。
在Qwen2.5-3B和7B模型上分别实现了平均24%和13.6%的准确率提升。
消融实验表明，仅对全错误组（All-wrong groups）应用轮次级奖励分配效果最佳，这证实了全错误组是奖励同质化和样本浪费的主要来源。
训练动态分析显示，TSPO通过轮次级奖励缓解了策略崩溃，保持了更高的策略熵和更稳定的优化过程，相比基线（如GRPO）在策略熵、KL散度和梯度范数方面表现出更好的稳定性与优化一致性。

实际价值

TSPO的计算成本与基线方法相当，甚至在某种配置下更低，使其具有实际部署的可行性。
该方法仅需（查询，黄金答案）监督，无需昂贵的外部奖励模型或人工进行步骤级标注，大大降低了应用门槛。
提高了语言模型在复杂多轮推理任务（如工具调用、多跳问答）中的性能和鲁棒性，为构建更强大的AI助手提供了技术支持。

4️⃣ 术语表

TSPO：Turn-level Stage-aware Policy Optimization（轮次阶段感知策略优化），一种用于优化多轮工具集成推理的强化学习框架，旨在解决双重同质化困境。
FOLR：First-Occurrence Latent Reward（首次出现潜在奖励），TSPO框架中的核心奖励机制，通过奖励首次出现真实答案的轮次来保留过程信号并增加组内奖励方差。
双重同质化困境：指多轮强化学习中存在的两个问题：1）过程级奖励同质化：稀疏结果奖励无法区分不同的中间过程质量；2）组内奖励同质化：组内奖励归一化导致优势估计方差为零，阻碍学习。
过程级奖励同质化：基于结果的稀疏奖励（二元标量）无法区分“接近命中”（部分成功）与完全失败的轨迹，抹去了细粒度的过程信号。
组内奖励同质化：在采样组内进行奖励归一化时，若组内所有轨迹结果相同（全对或全错），会导致优势估计方差为零，优化器无法利用许多轨迹，构成双重同质化困境的第二阶段。
均匀奖励组：指组内所有轨迹获得相同奖励（如全对或全错）的组，在二元奖励设置下出现概率很高，会导致梯度消失。
首次出现假设：TSPO框架的核心假设，认为在中间检索反馈中目标答案的出现，可作为最终答案成功的潜在信号和部分进展的指标。
精确匹配：用于评估问答系统性能的标准指标，要求预测答案与标准答案完全一致。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. TSPO框架

2. 首次出现潜在奖励（FOLR）机制

3. 双重同质化困境的识别与形式化

4. 针对全错误组的轮次级奖励分配

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. TSPO框架

2. 首次出现潜在奖励（FOLR）机制

3. 双重同质化困境的识别与形式化

4. 针对全错误组的轮次级奖励分配

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要