一文告诉你DeepSeek私有化部署应该选择什么版本

发布日期：2025-02-28 03:31:55 浏览次数： 3341

作者：ctyun的1001种玩法

微信搜一搜，关注“ctyun的1001种玩法”

近段时间全民都在进行DeepSeek炼丹，蒸馏版、满血版、量化版各种版本满天飞，各种术语眼花缭乱。

考虑到安全问题，很多企业不会考虑使用公有云API服务，而是考虑使用GPU服务器进行私有化部署，那究竟应该选择什么版本呢？

下面说说我的看法，我的结论是：

性价比之选是14B量化版，性能之选是32B量化版，671B满血版是土豪的选择。

首先要科普几个术语，蒸馏是指的知识的传递，现在DeepSeek开源的R1蒸馏版就是DeepSeek这个老师向llama3和qwen2.5这几个小模型传授了一部分知识，使得llama3和qwen2.5的能力大幅提高。但部署蒸馏版所消耗的资源却相对非常少，在普通的消费级GPU上也可以运行得起来。

下面的表格即是DeepSeek开源的六个小参数模型的基座模型。

模型	基座模型
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct

这几个模型参数量差异很大，但模型的能力并没有像他们的参数差异那么大。

我们看看DeepSeek官网的评测，看下图：

这个图中说的是让开源的这六个蒸馏小模型和GTP 4o-mini、Claude3.5等模型在数学、通用知识、编程这三个方面进行同场竞技，然后得到评测的分数。其中AIME和MATH 500是数学能力评测，GPQA是通用知识能力评测，LiveCodeBench和CodeForces是编程能力评测。

通过将各项评测分数相加，得到总分并按从高到低排名，可以直观地比较各模型的性能:

模型名称	评测总分
o1-mini	2167.4
DeepSeek-R1-Distill-Qwen-32B	2060.5
DeepSeek-R1-Distill-Llama-70B	2006.9
DeepSeek-R1-Distill-Qwen-14B	1836.8
QwQ-32B	1607
DeepSeek-R1-Distill-Llama-8B	1513.1
DeepSeek-R1-Distill-Qwen-7B	1507.3
DeepSeek-R1-Distill-Qwen-1.5B	1170.2
Claude-3.5-Sonnet-1022	941.9
GPT-4o-0513	939.1

从评测可以看，GPT o1-mini分数最高，其次是DeepSeek-R1-Distill-Qwen-32B，而DeepSeek-R1-Distill-Llama-70B参数量更大反而只排到了第三。然后14B和70B的差异也不大。7B和8B差异不大，但和14B就有一定差距了。1.5B可以直接忽略了。

所以我得到第一个结论：在DeepSeek开源的几个蒸馏版小模型中32B的能力是最强的，70B可以忽略，14B和32B的差距并不大。

接下来我们看一下量化版。

量化是一种模型压缩技术，从技术上说是把原始模型的高精度数据类型（如 16位浮点数）表示的参数和计算，转换为低精度数据类型（如8位整数、4位整位数）来进行存储和计算的技术，可以大大减小模型的大小，减小运行模型所需要的算力资源，还能提高推理的速度。而量化版相对原版，资源消耗基本只要原版的一半，性能的损失却非常小，通常在1%-3%之间，完全在可接受范围内。

比如运行32B fp16原版需要约90G显存，则32B Q4量化版只需要约21G显存，两张消费级显卡就可以运行。

理解量化可以举一个不那么恰当的例子：要我口算 203 x 517 我一下子算不出来，但我可以一眼就看出 200 x 500 = 100000，即 203 x 517 的结果应该是在10万多一点，这样虽然计算的结果没那么精确，但却省了脑力并节省了计算的时间。

所以我得到第二个结论：考虑到性价比，推荐采用量化版，比如从ollama下载的DeepSeek模型均是Q4量化版本。

最后说说为什么我说性价比之选是14B量化版，性能之选是32B量化版。

从前面的介绍可以看出，32B的性能在DeepSeek六个开源蒸馏版模型中性能最强，不过要想做生产流畅运行，需要2块16G或2块24G显存的GPU。而14B模型使用一块24G显存的GPU就可以流畅运行。也就是32B需要的资源是14B的2倍，性能却只比14B提高了12%左右。

下表为DeepSeek 14B、32B的原始版及量化版的资源需求，现在你应该也有了自己的结论。

模型名称	GPU需求
DeepSeek-R1-Distill-Qwen-14B 原版 16位精度	2块A10或4090
DeepSeek-R1-Distill-Qwen-14 Q4量化	1块T4、A10或4090
DeepSeek-R1-Distill-Qwen-32B 原版 16位精度	4块A10或4090
DeepSeek-R1-Distill-Qwen-32B Q4量化	2块T4、A10或4090