arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2501.12948

👤 yu

09-08 22:24

llm

reasoning capabilities pure reinforcement learning grpo algorithm knowledge distillation mathematical reasoning

📄 论文总结

DeepSeek-R1：基于纯强化学习的大语言模型推理能力提升

DeepSeek-R1: Enhancing Reasoning Capabilities of Large Language Models through Pure Reinforcement Learning

1️⃣ 一句话总结

DeepSeek团队开发了基于纯强化学习的大语言模型推理训练方法，无需监督微调即可显著提升模型推理能力，并在多个基准测试中达到与OpenAI-o1系列相当的性能。

2️⃣ 论文创新点

1. 纯强化学习推理训练

创新点是什么：直接在基础模型上应用强化学习，完全无需监督微调数据
与已有方法的区别/改进：避免了耗时的人工数据收集，降低了训练成本
为什么有意义：为大语言模型推理能力提升提供了一种高效且可扩展的新途径

2. GRPO优化算法

创新点是什么：通过组内奖励估计基线来优化策略模型，无需单独的评论家模型
与已有方法的区别/改进：省去了与策略模型同等大小的评论家模型，显著节省了训练资源
为什么有意义：提高了强化学习训练的效率，使其在大规模模型应用中更加可行

3. 多阶段训练流程

创新点是什么：包含冷启动、强化学习、拒绝采样和监督微调四个阶段的完整训练管道
与已有方法的区别/改进：解决了模型可读性和语言混合问题，同时保持强大的推理能力
为什么有意义：为行业创建更好的模型提供了有效的方法论

4. 大模型到小模型的知识蒸馏

创新点是什么：将大模型的推理模式蒸馏到小模型中
与已有方法的区别/改进：相比在小模型上直接应用强化学习，蒸馏方法获得更好的性能
为什么有意义：使小模型也能具备强大的推理能力，推动开源社区发展

3️⃣ 主要结果与价值

实验结果亮点

在AIME 2024数学基准测试中从15.6%提升至71.0%，通过多数投票进一步提升至86.7%
在MMLU、MMLU-Pro、GPQA Diamond等多个基准测试中表现优异
性能与OpenAI-o1-1217相当甚至略有超越

实际应用价值

开源了基于Qwen和Llama系列的多个规模模型（1.5B到70B）
提供了高效的小模型推理能力迁移方案
为资源受限环境下的推理应用提供了可行解决方案

4️⃣ 术语表

强化学习（RL）：一种基于奖励期望行为和惩罚不期望行为的机器学习训练方法
监督微调（SFT）：预训练模型在标注数据上进一步训练以适应特定任务的过程
DeepSeek-R1-Zero：基于纯强化学习方法训练的推理模型，无需任何监督微调数据
GRPO：组相对策略优化，一种通过组内奖励估计基线来优化策略模型的强化学习算法
冷启动（Cold Start）：训练流程的初始阶段，通过收集少量长思维链数据微调基础模型作为RL起点
AIME 2024：用于评估模型数学推理能力的基准测试
pass@k：一种评估方法，生成k个响应并计算通过率，使用温度采样避免贪婪解码问题

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2501.12948

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 纯强化学习推理训练

2. GRPO优化算法

3. 多阶段训练流程

4. 大模型到小模型的知识蒸馏

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2501.12948 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 纯强化学习推理训练

2. GRPO优化算法

3. 多阶段训练流程

4. 大模型到小模型的知识蒸馏

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2501.12948