2509.07430 – Summary

📄 论文总结

多样性保持混合强化学习框架

Diversity-Preserving Hybrid Reinforcement Learning Framework

本文提出了DPH-RL框架，通过使用mass-covering f-divergences（如前向KL和JS散度）替代传统的反向KL散度，有效解决了强化学习微调大语言模型时的多样性崩溃问题，显著提升了多尝试性能（Pass@k）和泛化能力。

创新点是什么：使用mass-covering f-divergences（如前向KL和JS散度）作为知识保留机制，通过持续参考初始策略来保持解决方案多样性
与已有方法的区别/改进：替代传统RLVR中使用的模式寻求的反向KL或省略散度项的方法，主动防止模型输出分布变窄
为什么有意义：解决了RLVR微调LLMs时的多样性崩溃问题，提高了多尝试性能（Pass@k）和泛化能力

DPH-RL：Diversity-Preserving Hybrid Reinforcement Learning，一种使用mass-covering f-divergences（如前向KL和JS散度）来保持解决方案多样性的RLVR框架
RLVR：Reinforcement Learning with Verifiable Reward，使用可验证奖励的强化学习，常用于微调大型语言模型以提升数学和编码能力
reverse-KL divergence：反向KL散度，模式寻求的特性，鼓励策略收敛到单一高概率解决方案，抑制多样性
forward-KL divergence：前向KL散度，质量覆盖的特性，惩罚策略未能为参考分布中的任何解决方案分配概率质量，从而保持多样性
f-divergence：衡量两个概率分布p和q之间差异的函数，定义为 D_f(p∥q) = ∫q(x)f(p(x)/q(x))dx，其中f是凸函数且f(1)=0
JS divergence：Jensen-Shannon散度，对称且稳定的散度度量，用于衡量两个概率分布之间的相似性
Pass@k：评估指标，表示在k次尝试中至少有一次正确的概率，用于评估代码生成或数学解题模型的性能