我要投稿

聊聊DeepSeek R1的知识蒸馏与应用思考

发布日期：2025-01-26 11:26:26 浏览次数： 5028

作者：阿郎小哥的随笔驿站

微信搜一搜，关注“阿郎小哥的随笔驿站”

DeepSeek-R1和DeepSeek-R1-Zero都是杭州深度求索人工智能基础技术研究有限公司发布的AI推理模型。

我自己在官方的模型^[1]上试用了一下，感觉很不错，尤其是深度思考模式下的思考链内容，很不错。

以下是二者的具体介绍：

DeepSeek-R1

训练方式

冷启动数据引入：通过引入数千条高质量的冷启动数据进行初始微调，解决了DeepSeek-R1-Zero的可读性和语言混杂问题，显著提升了模型的可读性和多语言处理能力。
两阶段强化学习：模型通过两轮强化学习不断优化推理模式，同时对齐人类偏好，提升了多任务的通用性。
增强型监督微调：在强化学习接近收敛时，结合拒绝采样和多领域的数据集，进一步强化了写作、问答和角色扮演等非推理能力。

主要功能

高性能推理：在数学、代码和自然语言推理等任务中表现出色，在AIME2024上获得了79.8%的成绩，略高于OpenAI-o1-1217；在MATH-500上获得了97.3%的成绩，与OpenAI-o1-1217相当；在代码竞赛任务中表现出专家水平，在工程相关任务上略优于OpenAI-o1-1217。
支持模型蒸馏：支持用户利用DeepSeek-R1的输出进行模型蒸馏，训练更小型的模型，如用Qwen和Llama蒸馏出的32B和70B模型，在多项能力上实现了对标OpenAI o1-mini的效果。
开源与灵活使用：遵循MIT License开源，支持商业使用和模型修改，适用于科研、企业智能化升级等场景。

DeepSeek-R1-Zero

训练方式：是首个完全基于强化学习的推理模型，直接在基础模型上应用强化学习，跳过了监督微调阶段。训练中主要有两种奖励，一种是只看最终答案是否正确，如数学题看最终结果，编程题看测试用例结果；另一种是格式奖励，要求模型将思考内容写在“草稿纸”上，即CoT标签内，不要混杂思考内容和给用户呈现的内容。
主要功能

强大的推理能力：在AIME2024数学竞赛中，Pass@1分数从最初的15.6%提升至71.0%，接近OpenAI-o1-0912的水平。
自我进化能力：在训练过程中能自然涌现出反思、重新评估推理步骤等复杂行为，比如模型会进行“反思”，重新审视并评估之前的步骤，还会探索解决问题的替代方法。
开源与社区支持：模型权重已开源，遵循MIT License，支持用户通过蒸馏技术训练其他模型。

区别

R1-Zero：适合研究场景，验证纯 RL 训练的潜力，但实际应用受限
R1：适用于高精度推理需求，如编程辅助、科学问题解答、教育工具等

知识蒸馏

直接基于R1生成的long CoT的数据做SFT，最后的效果如下：

R1蒸馏的Qwen-32B性能比QwQ好很大一截
R1蒸馏的Qwen-14B也能beats Qwen team的QwQ-32B model
基于Qwen-32b-base distill R1输出明显好于Qwen-32B + RL
Qwen-32B RL效果提升不如DeepSeek-V3-base

结论

对于小模型large scale 的RL效果可能不如distill模型
尽管distill可以既经济又高效地训练reasonning模型，但是对于提升模型能力的边界，还是需要强的base模型以及Larage scale 的RL训练

思考

相比较于R1，我更好奇于知识蒸馏的细节，可惜，官方paper没有过多叙述。

为什么我会把注意力放在知识蒸馏上，主要是在一定的GPU/NPU限制内，通过CoT格式的数据，做SFT，最终的是有RL效果的。而且相比较基于RL训练的同等模型，效果要更好。

而遗憾就是在官方的paper没有公布一下数据及蒸馏方式。总的来说是如下几个方面的细节：

基于R1生成的long CoT数据是如何生成的？又是怎么样的结构？
蒸馏方式是什么？直接通过KL散度处理输出的logits嘛？

带着这两个问题，查询检索了很多信息，但是都没有一个答案，毕竟官方没有放出来的话，一般是不会有准确信息的，同样在官方issue上很多人都提了类似的问题。

不过在一个issue^[2]下，倒是有一个回答从浅层次的说明了如何生成数据——prompt。

并且另外开了一个分支^[3]，来解释说明prompt。

不过也只是阐述了一下大致的逻辑，但具体的实践还是有待考证，不过也是一个思路。

小结

相比较别的DeepSeek帖子，本文要更侧重于知识蒸馏，而这一部分在paper中也是极少叙述的，只是阐述了简单的过程及效果。而其中可挖掘的内容是很多的，尤其是在显存等硬件受限的情况下，通过API调用DeepSeek R1生成的数据结合自定义的CoT数据，训练小模型，最后取得更好的效果。可惜，官方paper这些都没有放出来，但issue上关于这块的也是不少，希望官方可以考虑放出来一下。