← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

中英文论文题目：
《Klear-Reasoner: 通过梯度保留裁剪策略优化（GPPO）提升长链推理能力》
《Klear-Reasoner: Enhancing Long-Chain Reasoning via Gradient-Preserving Clipping Policy Optimization (GPPO)》

1️⃣ 一句话总结

本文提出了一种新型强化学习优化方法GPPO（梯度保留裁剪策略优化），通过保留被裁剪token的梯度信号，解决了传统PPO算法在长链推理任务中探索不足和负样本收敛慢的问题，结合高质量数据优先策略，显著提升了模型在数学和编程推理任务上的性能（如AIME2024准确率90.5%）。

2️⃣ 论文创新点

1. 梯度保留裁剪策略优化（GPPO）

创新点：传统PPO裁剪机制完全丢弃超出边界的梯度，而GPPO保留所有token的梯度（包括被裁剪部分），通过动态约束（如1±ϵ）平衡探索与稳定性。
改进：相比Clip-Higher等对称裁剪方法，GPPO的非对称梯度处理（高熵token保留、负样本加速收敛）提升模型探索能力，数学任务收敛速度加快30%。
意义：解决了RL训练中高熵token探索不足和负样本梯度消失的核心问题。

2. 高质量数据优先的训练策略

创新点：发现少量高质量数据（如精选数学/代码样本）比大规模低质数据更有效，且困难样本无需过滤即可提升性能。
改进：传统方法依赖数据多样性，而本文通过严格去重和教师模型（DeepSeek-R1-0528）蒸馏构建88K数学+18K代码的高质量数据集。
意义：验证了数据质量对长链推理的关键作用，减少训练噪声并降低计算成本。

3. 混合数据与错误样本的对比学习

创新点：在不确定性高的任务中，混合正确与错误样本训练可提升性能（如AIME Hard子集+1.66%），因错误样本提供对比信号。
改进：传统方法仅使用正确数据，而本文证明错误样本能帮助模型区分有效/无效推理路径。
意义：为RL数据构建提供了新思路，类似“对抗学习”的自我修正机制。

4. 软奖励与测试用例过滤机制

创新点：代码任务中采用基于pass@k的软奖励（非0/1硬奖励），缓解稀疏奖励问题；结合测试用例过滤（如pass@16≥0.5）提升稳定性。
改进：传统RL依赖稀疏奖励，而软奖励保留部分正确样本的学习信号，LiveCodeBench V5得分提升1.8分。
意义：为代码生成任务提供了更精细的奖励设计范式。

3️⃣ 主要结果与价值

实验结果亮点

性能提升：Klear-Reasoner-8B在AIME2024达到90.5%准确率（32K推理预算），接近64K/96K预算的SOTA模型。
效率优势：GPPO使数学任务收敛速度提升30%，代码任务（LiveCodeBench V5）得分提升1.8分。
数据效率：仅用Top1/Top2高质量数据子集即超越多样化数据训练的基线模型。

实际应用价值

跨领域推理：方法适用于数学证明、代码生成等需长链推理的场景，可扩展至医疗、金融决策。
低成本部署：通过高质量数据筛选和GPPO优化，8B参数模型性能媲美更大规模模型。
开源贡献：提供了可复现的训练流程（如数据去重、教师模型蒸馏），推动社区研究。

4️⃣ 术语表

GPPO：梯度保留裁剪策略优化，保留所有token梯度并约束其范围的PPO改进算法。
long CoT SFT：长链思维监督微调，强调高质量数据与连贯推理路径的微调方法。
GRPO：组相对策略优化，基于组归一化奖励的PPO变体，无需单独价值网络。
Clip-Higher：非对称裁剪方法，允许激进探索（ϵₕ > ϵₗ），由DAPO算法提出。
pass@k：代码生成评估指标，基于k次生成的测试用例通过率计算软奖励。
YaRN：扩展推理预算的方法，通过调整RoPE基频支持更长上下文。

（总结完毕）

📄 打开原文 PDF