📄 论文总结
SimKO:通过非对称梯度重分布优化大语言模型推理多样性 / SimKO: Simple Pass@K Optimization through Asymmetric Gradient Redistribution
1️⃣ 一句话总结
本文提出SimKO方法,通过非对称梯度重分布解决强化学习可验证奖励训练中的概率过度集中问题,显著提升大语言模型在推理任务中的多样性和准确率。
2️⃣ 论文创新点
1. 非对称梯度重分布机制
- 创新点:针对正确和错误响应分别调整候选概率分布:对正确响应提升top-K候选概率,对错误响应仅惩罚top-1候选
- 区别/改进:缓解概率质量过度集中在排名第一候选者的问题,促进模型探索多样化推理路径
- 意义:有效提升多路径推理的覆盖率(pass@K),增强模型探索能力而不牺牲单路径准确率
2. 分叉标记识别技术
- 创新点:基于熵阈值选择性地优化高熵的关键推理节点标记,而非整个序列
- 区别/改进:只关注驱动核心推理过程的关键标记,提高优化效率
- 意义:针对性处理驱动核心推理过程的关键标记,实现更精准的概率重分配
3. Top-K标签平滑
- 创新点:仅对模型分布中top-K候选词进行概率重分配,避免在大词汇量中均匀分配导致的不稳定问题
- 区别/改进:用(1-α)e_yi,l + α/K * Σe_k 替换传统平滑公式,其中I_topK是当前模型分布中top-K词的索引
- 意义:促进输出分布平坦化,增强响应多样性,同时保持训练稳定性
3️⃣ 主要结果与价值
结果亮点
- 在多个数学推理基准测试(MATH-500、Minerva Math、Olympiad-Bench等)中一致提升pass@K性能
- 在Qwen2.5-Math-7B模型上提升pass@1得分17.6%,在Llama3.2-3B-Instruct上提升9.8%
- 在逻辑推理任务(Synlogic、BBH数据集)上分别提升pass@1得分31.6%和16.0%,展示强泛化能力
- 有效控制概率集中,保持Λ[(2)]和Λ[(3)]的多样性,避免像GRPO那样过度集中到top-1 token
实际价值
- 为大语言模型后训练提供了一种简单有效的优化方法,无需复杂架构修改
- 平衡探索与利用,同时提升单路径准确率和多路径覆盖率
- 在保持训练稳定性的同时增强模型推理多样性,适用于各种复杂推理任务
4️⃣ 术语表
- RLVR:Reinforcement Learning with Verifiable Rewards,使用可验证奖励的强化学习,专门用于大语言模型后训练
- pass@K:评估指标,表示在K次采样中至少有一次正确答案的概率,用于衡量多路径推理覆盖能力
- SimKO:Simple Pass@K Optimization的缩写,通过梯度重分布优化pass@K性能的方法
- GRPO:Group relative policy optimization,一种基于策略的RLVR方法,是PPO的变体,专门用于LLM后训练
- 分叉标记(forking tokens):指高熵的关键推理节点标记,这些标记会分化出多条推理路径,是SimKO方法重点优化的对象
- Λ^(k)度量指标:计算rank-k候选的平均对数概率,用于跟踪token概率在top-K候选中的分布,有效衡量模型探索能力