万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

发布日期：2025-01-21 20:41:59 浏览次数： 28376

作者：AcademicDaily

微信搜一搜，关注“AcademicDaily”

2025绝对是国内AI大爆发的元年，距离DeepSeek-V3震撼全球没多久

又推出了DeepSeek-R1，还是全开源，在数学、代码和自然语言推理等任务上都媲美o1

做到了真正的Open AI，而在大洋彼岸的“OpenAI”实则不过是Close AI 罢了。

相信国内的大模型技术发展一定会越来越好！遥遥领先！

如果还没太搞懂DeepSeek-V3的朋友们可以去看看我写的这篇详解

最强开源媲美闭源 | 万字详解 DeepSeek-V3 技术报告！

目前刚发布DeepSeek-R1与之前的DeepSeek-V3区别如下：

DeepSeek-R1 通过使用多阶段循环的训练方式：基础→RL→微调→RL→微调→RL，极大加强了大模型的深度思考能力。

大家可以在通过下方的体验地址

https://www.deepseek.com/

点击深度思考就可以体验最新的DeepSeek-R1模型

相信效果一定会让大家赞叹不已！

该技术报告已开源，罕见的介绍了大模型研发过程中的失败经验和教训（见推文第6节），还指出了未来的研究方向（见推文第8节），下面让我来为朋友们详细解读，希望大家从中能有所收获！

【标题】

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

【链接】https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

可在微信公众号后台回复关键字 “技术报告”，领取全文PDF

源码见文末

摘要

本文隆重介绍了第一代推理模型

DeepSeek-R1-Zero 和 DeepSeek-R1

DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练的模型，无需监督微调（SFT）作为初步步骤，展现出卓越的推理能力。

通过强化学习，DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。

然而，它面临可读性差和语言混杂等挑战。

为了解决这些问题并进一步提高推理性能，本文提出了 DeepSeek-R1

该模型在强化学习之前融入了多阶段训练和冷启动数据。

DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当。

为了支持研究社区，本文开源了 DeepSeek-R1-Zero、DeepSeek-R1

以及基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个稠密模型（1.5B、7B、 8B、14B、32B、70B参数规模）。

引言

近年来，LLMs经历了快速的迭代和演进，与AGI的差距逐渐缩小。

目前模型训练后优化已成为完整训练流程的重要组成部分。

研究表明，它能提高推理任务的准确性，符合社会价值观，并适应用户偏好，同时与预训练相比，所需的计算资源相对较少。

在推理能力方面，OpenAI 的 o1 系列模型率先通过增加思维链推理过程的长度来进行推理时的扩展。

这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。

此前的方法中没有一种能在通用推理性能上与 OpenAI 的 o1 系列模型相媲美。

本文迈出了使用纯强化学习RL来提升语言模型推理能力的第一步。

团队的目标是探索LLMs在无需任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯强化学习过程实现自我进化。

具体而言，本团队使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为强化学习框架，以提高模型在推理方面的性能。

在训练过程中，DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。

经过数千步的强化学习，DeepSeek-R1-Zero 在推理基准测试中表现卓越。

然而，DeepSeek-R1-Zero 面临着诸如可读性差和语言混杂等挑战。

为了解决这些问题并进一步提高推理性能，提出了 DeepSeek-R1，它整合了少量冷启动数据和多阶段训练流程。

具体来说，首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。

随后，像训练 DeepSeek-R1-Zero 一样进行面向推理的强化学习。

在强化学习过程接近收敛时，通过对强化学习检查点进行拒绝采样

并结合来自 DeepSeek-V3 在写作、事实性问答和自我认知等领域的监督数据，创建新的SFT数据，然后重新训练 DeepSeek-V3-Base 模型。

使用新数据微调后，该检查点会经历额外的强化学习过程，同时考虑所有场景的提示。

经过这些步骤，得到了一个名为 DeepSeek-R1 的检查点，其性能与 OpenAI-o1-1217 相当。

进一步探索从 DeepSeek-R1 中提炼推理能力到较小的稠密模型中。

以 Qwen2.532B 为基础模型，直接从 DeepSeek-R1 中提炼的效果优于在其基础上应用强化学习。

这表明较大基础模型发现的推理模式对于提高推理能力至关重要。

本团队开源了提炼后的 Qwen 和 Llama 系列模型。

值得注意的是，本文提炼的 140 亿参数模型在性能上大幅超越了最先进的开源模型 QwQ-32B-Preview

而提炼的 320 亿和 700 亿参数模型在稠密模型的推理基准测试中创下了新纪录。

贡献

3.1 训练后优化：在基础模型上进行大规模强化学习

直接将强化学习应用于基础模型，而不依赖监督微调作为初步步骤。

这种方法使模型能够探索CoT来解决复杂问题，从而开发出 DeepSeek-R1-Zero。

DeepSeek-R1-Zero 展示了自我验证、反思和生成长思维链等能力，为研究界树立了重要的里程碑。

值得注意的是，这是首次公开研究验证大语言模型的推理能力可以纯粹通过强化学习来激发，而无需监督微调。这一突破为该领域未来的发展铺平了道路。

3.2 开发 DeepSeek-R1 的 pipeline

该流程包含两个强化学习阶段，旨在发现改进的推理模式并符合人类偏好；

还包括两个监督微调阶段，为模型的推理和非推理能力提供基础。

本团队相信这个流程将通过创建更好的模型，使整个行业受益。

3.3 模型提炼：小模型也可以很强大

证明了较大模型的推理模式可以提炼到较小模型中，与通过在小模型上应用强化学习所发现的推理模式相比，能带来更好的性能。

开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来提炼出更好的小模型。

3.4 微调稠密模型

使用 DeepSeek-R1 生成的推理数据，对研究社区中广泛使用的几个稠密模型进行了微调。

评估结果表明，提炼后的较小稠密模型在基准测试中表现出色。

DeepSeekR1-Distill-Qwen-7B 在 AIME 上的得分为 55.5%，超过了 QwQ-32B-Preview。

此外，DeepSeek-R1-Distill-Qwen-32B 在 2024 年 AIME 上的得分达到 72.6%

在 MATH-500 上的得分达到 94.3%，在 LiveCodeBench 上的得分达到 57.2%。

这些结果显著超越了以前的开源模型，与 o1-mini 相当。

本团队向社区开源了基于 Qwen2.5 和 Llama3 系列提炼的 1.5B、7B、 8B、14B、32B、70B参数模型的检查点。

技术方案

4.1 整体概述

以往研究多依赖大量监督数据提升模型性能，本研究表明，大规模RL可显著提升推理能力，即便不使用SFT作为冷启动。

少量冷启动数据的加入还能进一步提升性能。具体介绍了以下三方面内容：

DeepSeek-R1-Zero：直接对基础模型应用强化学习，不使用任何 SFT 数据。

DeepSeek-R1：从用数千个长思维链示例微调后的检查点开始应用强化学习。

模型蒸馏：将 DeepSeek-R1 的推理能力蒸馏到小型稠密模型中。

4.2 DeepSeek-R1-Zero：基础模型上的强化学习

4.2.1 强化学习算法

采用GRPO算法以节省强化学习的训练成本。

该算法舍弃了通常与策略模型大小相同的价值网络，从组得分中估计基线。

对于每个问题，GRPO 从旧策略中采样一组输出

然后通过最大化以下目标来优化策略模型：

其中，和是超参数，是优势

通过每组输出对应的一组奖励计算得出：

4.2.2 奖励建模

采用基于规则的奖励系统，主要包含两种奖励类型：

准确率奖励：评估模型的回答是否正确。如在数学问题中，要求模型按指定格式给出最终答案，以便基于规则可靠地验证正确性。

在 LeetCode 问题中，可使用编译器根据预定义测试用例生成反馈。

格式奖励：促使模型将思考过程置于‘<think>’和‘</think>’标签之间。

不使用结果或过程神经奖励模型，因为其在大规模强化学习过程中可能遭受奖励篡改，重新训练奖励模型需要额外资源，还会使整个训练流程复杂化。

4.2.3 训练模板

设计简单模板引导基础模型遵循指定指令，要求 DeepSeek-R1-Zero 先产生推理过程，再给出最终答案。

仅对结构格式进行限制，避免内容特定偏差，以准确观察模型在强化学习过程中的自然发展。

4.2.4 性能、自我进化过程和顿悟时刻

性能：在 AIME 2024 基准测试中，DeepSeek-R1-Zero 的性能随强化学习训练稳步提升

平均单次通过率（pass@1）得分从初始的 15.6% 显著提高到 71.0%，达到与 OpenAI-o1-0912 相当的水平。

通过多数投票，其在 AIME 基准测试上的性能可从 71.0% 提升到 86.7%，超过 OpenAI-o1-0912。（相关性能数据对比见图 2 和表 2）

自我进化过程：训练过程中，DeepSeek-R1-Zero 的思考时间不断改善

自然地获得了利用更长测试时间计算来解决日益复杂推理任务的能力，能够生成数百到数千个推理tokens，探索和完善其思维过程。

随着测试时间计算的增加，还出现了反思和探索替代解题方法等复杂行为。（自我进化过程中平均响应长度变化见图 3）

顿悟时刻：训练过程中出现 “顿悟时刻”，模型学会重新评估初始方法，为问题分配更多思考时间。

这不仅体现了模型推理能力的提升，也展示了强化学习可带来意想不到的复杂结果。

“顿悟时刻” 示例见表 3，展示了 DeepSeek-R1-Zero 中间版本的一个有趣 “顿悟时刻”，模型学会用拟人化语气重新思考。

缺点：DeepSeek-R1-Zero 存在可读性差和语言混杂等问题，为解决这些问题并使推理过程更易读，研究团队探索了 DeepSeek-R1 方法。

4.3 DeepSeek-R1：冷启动的强化学习

4.3.1 冷启动

为避免强化学习训练早期不稳定，构建并收集少量长 CoT 数据对 DeepSeek-V3-Base 模型进行微调，作为初始 RL 智能体。

收集数据的方法包括使用长 CoT 示例进行少样本提示、直接提示模型生成带反思和验证的详细答案、收集 DeepSeek-R1-Zero 的可读格式输出并由人工标注后处理优化结果等。

冷启动数据的优势在于提高了可读性，通过设计包含推理过程总结的输出格式，并过滤掉不友好的输出；

利用人类先验设计冷启动数据模式，其性能优于 DeepSeek-R1-Zero，迭代训练更适合推理模型。

4.3.2 面向推理的强化学习

在冷启动数据上微调 DeepSeek-V3-Base 后，采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。

该阶段聚焦提升模型在编码、数学、科学和逻辑推理等推理稠密型任务中的能力。

训练中发现 CoT 存在语言混杂问题，为此引入语言一致性奖励，计算 CoT 中目标语言单词的比例。

虽然消融实验表明这种调整会使模型性能略有下降，但符合人类偏好，使推理过程更易读。

最终，将推理任务的准确率和语言一致性奖励直接相加形成最终奖励，对微调后的模型进行强化学习训练，直至推理任务收敛。

4.3.3 拒绝采样和监督微调

当面向推理的 RL 收敛后，利用所得检查点收集 SFT 数据用于后续轮次训练。

此阶段的数据收集与初始冷启动数据不同，除推理数据外，还纳入其他领域数据以增强模型在写作、角色扮演和其他通用任务中的能力。

推理数据：精心策划推理提示，通过对上述 RL 训练的检查点进行拒绝采样生成推理轨迹。

扩展数据集，纳入部分使用生成式奖励模型的数据，通过将真实答案和模型预测输入 DeepSeek-V3 进行判断。

过滤掉语言混杂、长段落和代码块的思维链，为每个提示采样多个响应并仅保留正确的，共收集约 60 万个推理相关训练样本。

非推理数据：对于写作、事实性问答、自我认知和翻译等非推理数据，采用 DeepSeek-V3 的流程并复用部分其 SFT 数据集。

对于某些非推理任务，在回答问题前调用 DeepSeek-V3 生成潜在的思维链；

对于简单查询，如 “hello”，则不提供思维链。

最终共收集约 20 万个与推理无关的训练样本。

使用约 80 万个样本的数据集对 DeepSeek-V3-Base 进行两轮微调。

4.3.4 所有场景的强化学习

为使模型更符合人类偏好，实施二次强化学习阶段，旨在提高模型的有用性和无害性，同时优化其推理能力。

使用奖励信号和多样化提示分布训练模型，对于推理数据，遵循 DeepSeek-R1-Zero 中基于规则的奖励方法指导学习；

对于通用数据，借助奖励模型捕捉复杂场景中的人类偏好。

基于 DeepSeek-V3 的流程，采用类似的偏好对和训练提示分布。

评估有用性时，仅关注最终总结，确保评估强调响应对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰；

评估无害性时，评估模型的整个响应，包括推理过程和总结，识别并减轻生成过程中可能出现的潜在风险、偏差或有害内容。

通过整合奖励信号和多样化数据分布，训练出在推理方面表现出色，同时注重有用性和无害性的模型。

4.4 蒸馏：赋予小模型推理能力

为使更高效的小模型具备类似 DeepSeek-R1 的推理能力，使用为 DeepSeek-R1 精心整理的 80 万个样本，直接对 Qwen 和 Llama 等开源模型进行微调。

结果表明，这种简单的蒸馏方法可显著提升小模型的推理能力。

使用的基础模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。

对于蒸馏后的模型，仅应用 SFT，不包含 RL 阶段，目的是展示蒸馏技术的有效性，将 RL 阶段的探索留给更广泛的研究社区。

实验结果

DeepSeek-R1 评估

在教育知识类基准测试如：MMLU、MMLU-Pro、GPQA Diamond

DeepSeek-R1 性能优于 DeepSeek-V3，在 FRAMES 长文本问答任务中表现出色，在 SimpleQA 事实性基准测试上也超越 DeepSeek-V3

但在中文 SimpleQA 基准测试中因安全 RL 导致表现不如 DeepSeek-V3，若去除安全 RL，准确率能超 70%。

在 IF-Eval 格式指令遵循基准测试、AlpacaEval2.0 和 ArenaHard 写作与开放域问答任务中

DeepSeek-R1 表现优异，生成的总结长度简洁，在基于 GPT 的评估中避免了长度偏差，体现了模型在多任务上的稳健性。

在数学任务和编码算法任务如：LiveCodeBench 和 Codeforces

DeepSeek-R1 与 OpenAI-o1-1217 表现相当，大幅超越其他模型；

在工程导向的编码任务上，OpenAI-o1-1217 在 Aider 上表现更优，但在 SWE Verified 上二者性能相近

随着相关 RL 训练数据增加，DeepSeek-R1 工程性能有望提升。

蒸馏模型评估

蒸馏 DeepSeek-R1 的输出，能让小模型性能提升显著。

如 DeepSeek-R1-Distill-Qwen-7B 全面超越 GPT-4o-0513

DeepSeek-R1-14B 在所有评估指标上优于 QwQ-32B-Preview

DeepSeek-R1-32B 和 DeepSeek-R1-70B 在多数基准测试中大幅超过 o1-mini

此外，对蒸馏模型应用 RL 还可能进一步提升性能，文中仅展示了简单 SFT 蒸馏模型的结果。

讨论

主要探讨了蒸馏与强化学习的效果对比，分享了开发过程中失败的尝试及原因，为后续研究提供参考，具体内容如下：

6.1 蒸馏与强化学习

通过实验对比蒸馏和强化学习对模型性能的影响。

对 Qwen-32B-Base 进行超 10,000 步的大规模强化学习训练，得到 DeepSeek-R1-Zero-Qwen-32B，其性能与 QwQ-32B-Preview 相当。

而从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现，都显著优于 DeepSeek-R1-Zero-Qwen-32B。

由此得出结论，将强大模型的知识蒸馏到较小模型中效果出色，小模型依靠大规模强化学习不仅计算成本高昂，还可能无法达到蒸馏的性能；

蒸馏策略经济有效，但要突破智能边界，可能仍需更强大的基础模型和更大规模的强化学习。（相关对比数据见表 6，位于原文 4.1 节）

6.2 失败尝试

过程奖励模型（PRM）：PRM 旨在引导模型找到更好的推理方法，但在实际应用中有明显局限性，难以明确界定一般推理中的细粒度步骤；

判断当前中间步骤的正确性困难，自动标注效果不佳，手动标注不利于大规模应用；

引入基于模型的 PRM 会导致奖励作弊，重新训练奖励模型不仅增加计算成本，还使训练流程更复杂。

在大规模强化学习实验中，PRM 带来的优势相较于其引入的计算开销而言较为有限

不过它在对模型生成的前 N 个响应进行重新排序或辅助引导搜索方面有一定作用。

蒙特卡洛树搜索（MCTS）：受 AlphaGo 和 AlphaZero 启发，尝试用 MCTS 提升测试时计算的可扩展性，让模型系统地探索解决方案空间。

训练时先借助预训练价值模型通过 MCTS 找到答案，再用问题-答案对训练行为模型和价值模型。

然而，在大规模训练时面临挑战，tokens生成的搜索空间非常大，设置节点扩展限制易使模型陷入局部最优；

训练精细的价值模型难度大，影响模型迭代改进，难以像 AlphaGo 那样通过训练价值模型提升性能。

虽然 MCTS 与预训练价值模型结合可在推理时提升性能，但通过自我搜索迭代提升模型性能仍面临重大挑战。

结论

在这项工作中，本文分享了通过RL提升模型推理能力的研究过程。

DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯强化学习方法，在各种任务中都取得了出色的性能。

DeepSeek-R1 则更强大，它利用冷启动数据以及迭代的强化学习微调。

最终，DeepSeek-R1 在一系列任务上实现了与 OpenAI-o1-1217 相媲美的性能。

本文进一步探索了将推理能力蒸馏到小型稠密模型中。

以 DeepSeek-R1 作为教师模型生成 80 万个数据，并对几个小型稠密模型进行微调，取得了令人鼓舞的成果：

DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中表现出色，在 AIME 上得分达到 28.9%，在 MATH 上得分达到 83.9%，超过了 GPT-4o 和 Claude-3.5-Sonnet。

其他稠密模型也取得了令人瞩目的成绩，显著超越了基于相同基础检查点的其他指令微调模型。

未来方向

在未来，本团队计划在以下几个方向对 DeepSeek-R1 展开研究：

通用能力：目前，DeepSeek-R1 在诸如函数调用、多轮交互、复杂角色扮演和 json 输出等任务上的能力不及 DeepSeek-V3。接下来，本团队计划探索如何利用长CoT来提升在这些领域的任务表现。

语言混杂：DeepSeek-R1 目前针对中文和英文进行了优化，在处理其他语言的查询时可能会出现语言混杂的问题。例如，即使查询使用的是非中文和非英文的语言，DeepSeek-R1 也可能会使用英文进行推理和回复。本团队旨在通过未来的更新解决这一局限性。

提示工程：在评估 DeepSeek-R1 时，观察到它对提示很敏感。少样本提示会持续降低其性能。因此建议用户直接描述问题并使用零样本设置指定输出格式，以获得最佳结果。

软件工程任务：由于评估时间较长，影响了强化学习过程的效率，大规模强化学习尚未在软件工程任务中广泛应用。因此，DeepSeek-R1 在软件工程基准测试上相比 DeepSeek-V3 并没有显著的改进。未来版本将通过对软件工程数据实施拒绝采样，或在强化学习过程中纳入异步评估来提高效率，从而解决这一问题。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业