← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: ppo optimization long-chain reasoning gradient preservation data quality contrastive learning 或 搜索:

📄 论文总结


1️⃣ 一句话总结

本文提出了一种新型强化学习优化方法GPPO(梯度保留裁剪策略优化),通过保留被裁剪token的梯度信号,解决了传统PPO算法在长链推理任务中探索不足和负样本收敛慢的问题,结合高质量数据优先策略,显著提升了模型在数学和编程推理任务上的性能(如AIME2024准确率90.5%)。


2️⃣ 论文创新点

1. 梯度保留裁剪策略优化(GPPO)

2. 高质量数据优先的训练策略

3. 混合数据与错误样本的对比学习

4. 软奖励与测试用例过滤机制


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


(总结完毕)

📄 打开原文 PDF