🤖 系统
10-11 12:08
📄 论文总结
通过低概率正则化保护推理火花:解决强化学习中的探索瓶颈 / Protecting Reasoning Sparks via Low-Probability Regularization: Addressing Exploration Bottlenecks in Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为低概率正则化(Lp-Reg)的新方法,通过保护有价值的低概率探索性标记来防止强化学习训练中的探索崩溃,在数学推理任务上实现了60.17%的平均准确率。
2️⃣ 论文创新点
1. 推理火花(Reasoning Sparks)概念
- 创新点:识别出在推理过程中有价值但概率较低的探索性标记,如'but'、'wait'、'however'等逻辑连接词或不确定性表达
- 区别/改进:揭示了传统RLVR训练中这些标记被系统性抑制的问题,解释了性能瓶颈的根本原因
- 意义:为理解强化学习中的探索动态提供了新视角,解释了推理能力发展的关键机制
2. 低概率正则化(Lp-Reg)方法
- 创新点:通过构建过滤噪声后重新归一化的代理分布,使用KL散度保护低概率有价值标记的正则化技术
- 区别/改进:解决了传统熵控制方法放大噪声和不稳定的问题,实现了稳定的长期训练
- 意义:在数学推理任务上达到最先进性能,实现了约1000步的稳定训练
3. 动态阈值调节机制
- 创新点:采用自适应min-p噪声阈值过滤分布尾部的无关噪声,而非固定阈值
- 区别/改进:相比固定阈值提供更鲁棒的置信度估计,防止无关噪声破坏训练稳定性
- 意义:实现健康的探索-利用平衡,确保训练稳定性
3️⃣ 主要结果与价值
结果亮点
- 在五个数学基准测试中,Qwen3-14B模型达到60.17%的平均准确率,比次优方法高出2.66%
- 在14B和32B模型规模上均达到最先进性能,证明了方法的可扩展性
- 实现了约1000步的稳定训练,避免了传统方法的性能平台期和崩溃问题
- 在线策略训练优于离线策略方法,避免了数据采样和训练策略不匹配导致的分布偏移
实际价值
- 为大规模语言模型的推理能力训练提供了稳定有效的强化学习框架
- 可应用于各种需要复杂推理的任务,如数学问题解决、逻辑推理等
- 减少了超参数精细调优的依赖,提升了方法在实际应用中的可行性
- 为理解模型探索行为提供了新的分析工具和视角
4️⃣ 术语表
- RLVR:基于可验证奖励的强化学习,通过基于规则的验证为可验证解决方案分配奖励的强化学习方法
- Reasoning Sparks:有价值的低概率探索性标记,包括逻辑连接词或不确定性表达,能自然启动多样化推理路径
- Lp-Reg:低概率正则化方法,通过过滤噪声和重新归一化概率质量来保护低概率有价值标记
- GRPO:组相对策略优化,使用组内样本相对优势的策略优化方法
- πproxy:代理分布,通过过滤低置信度标记和概率重新归一化构建的高置信度参考分布
- min-p阈值:动态噪声过滤阈值,用于识别和过滤分布尾部的无关噪声