🤖 系统
11-30 17:23
📄 论文总结
DeepSeek-R1:通过强化学习激励大语言模型推理能力 / DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了两种通过强化学习训练的新型推理模型,其中DeepSeek-R1-Zero直接通过强化学习获得推理能力但存在可读性问题,而改进版DeepSeek-R1通过多阶段训练在推理任务上达到了与顶级模型相当的性能,并将相关模型开源供研究使用。