📄 论文总结
多样性保持混合强化学习框架
Diversity-Preserving Hybrid Reinforcement Learning Framework
1️⃣ 一句话总结
本文提出了DPH-RL框架,通过使用mass-covering f-divergences(如前向KL和JS散度)替代传统的反向KL散度,有效解决了强化学习微调大语言模型时的多样性崩溃问题,显著提升了多尝试性能(Pass@k)和泛化能力。
2️⃣ 论文创新点
1. DPH-RL框架
- 创新点是什么:使用mass-covering f-divergences(如前向KL和JS散度)作为知识保留机制,通过持续参考初始策略来保持解决方案多样性
- 与已有方法的区别/改进:替代传统RLVR中使用的模式寻求的反向KL或省略散度项的方法,主动防止模型输出分布变窄
- 为什么有意义:解决了RLVR微调LLMs时的多样性崩溃问题,提高了多尝试性能(Pass@k)和泛化能力
2. 训练效率优化
- 创新点是什么:DPH-RL使用生成器函数计算f-divergence,仅需从初始策略采样,无需在线参考模型,提高了训练效率
- 与已有方法的区别/改进:相比需要在线参考模型的方法,减少了计算开销和复杂性
- 为什么有意义:使DPH-RL在实际应用中更可行和高效,适用于大规模语言模型的微调
3. f-散度泛化方法
- 创新点是什么:将分析从前向和反向KL扩展到更广泛的f-散度家族,包括JS散度和α-散度
- 与已有方法的区别/改进:提供了更灵活的多样性保持方案选择
- 为什么有意义:扩展了RL微调中散度选择的理论和实践基础
3️⃣ 主要结果与价值
实验结果亮点
- 在Bird数据集上,DPH-F和DPH-JS方法在Pass@8指标上优于GRPO和DAPO基线,表明具有更好的模型多样性保持能力
- 在Spider(OOD)数据集上,DPH方法能维持接近基线的准确率,而DAPO表现不稳定,DPH-F在OOD性能保持上表现更强
- 在数学OOD任务评估中,DPH方法相比GRPO和DAPO性能下降更小,表明其能减少模型对训练领域的过度专注
实际应用价值
- 为大型语言模型的强化学习微调提供了有效的多样性保持解决方案
- 在SQL生成和数学推理任务上都表现出优异的性能,具有广泛的适用性
- 训练过程更稳定,减少了模型崩溃和性能退化的风险
4️⃣ 术语表
- DPH-RL:Diversity-Preserving Hybrid Reinforcement Learning,一种使用mass-covering f-divergences(如前向KL和JS散度)来保持解决方案多样性的RLVR框架
- RLVR:Reinforcement Learning with Verifiable Reward,使用可验证奖励的强化学习,常用于微调大型语言模型以提升数学和编码能力
- reverse-KL divergence:反向KL散度,模式寻求的特性,鼓励策略收敛到单一高概率解决方案,抑制多样性
- forward-KL divergence:前向KL散度,质量覆盖的特性,惩罚策略未能为参考分布中的任何解决方案分配概率质量,从而保持多样性
- f-divergence:衡量两个概率分布p和q之间差异的函数,定义为 D_f(p∥q) = ∫q(x)f(p(x)/q(x))dx,其中f是凸函数且f(1)=0
- JS divergence:Jensen-Shannon散度,对称且稳定的散度度量,用于衡量两个概率分布之间的相似性
- Pass@k:评估指标,表示在k次尝试中至少有一次正确的概率,用于评估代码生成或数学解题模型的性能