2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

3种方法本地部署DeepSeek-V3,附部署方法

发布日期:2025-02-11 09:14:31 浏览次数: 10274
作者:GeekSavvy

微信搜一搜,关注“GeekSavvy”

推荐语

掌握DeepSeek-V3本地部署技巧,提升AI项目效率与安全性。

核心内容:
1. DeepSeek-V3模型的创新架构与性能优势
2. 利用开源工具Ollama、llama.cpp和LMDeploy进行本地部署
3. DeepSeek-V3在实际应用中的部署案例分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


DeepSeek-V3 的开源大型语言模型的横空出世,它带着创新的架构、高效的训练方法和出色的性能,跟自家的 R1 可谓是齐头并进。


在众多模型中,如何找到一款既高效又经济实惠的模型,用于日常办公中的智能文档处理,还是科研领域的复杂数据分析等等,AI 智能化需求一直在新增。为了数据安全以及商业化,本地部署一个既高效又实惠的模型的需求也不断增加。


这篇文章将深入了解 DeepSeek-V3 的架构、功能、经济高效的训练和开发人员的实际用例。了解如何使用 Ollama、llama.cpp 和 LMDeploy 等开源工具在本地部署和运行它。


V3 简介



DeepSeek-V3 由 DeepSeek AI 开发,是目前一种较先进的开源大型语言模型 (LLM),旨在与 GPT-4o、Llama 3 和 Claude 3 等最先进的模型竞争。


该模型集成了 Mixture-of-Experts (MoE) 架构、高效的训练方法和扩展的上下文处理等尖端功能,使其成为在本地利用 AI 的开发人员的强大工具。


文章将探讨了 DeepSeek-V3 的架构、训练方法、基准测试性能与其他顶级模型的比较,以及有关开发人员如何在本地硬件上高效运行它的详细指导。


01 DeepSeek-V3 的架构


Mixture-of-Experts (MoE) 模型


DeepSeek-V3 采用基于 MoE 的方法,共有 6710 亿个参数,但每个 tokens 仅激活 370 亿个参数。这种选择性激活大大减少了计算开销,同时保持了效率,在关键任务中优于密集模型。


与传统 Dense 模型的比较


与传统的密集模型(如 Llama 3.1 和 GPT-4o)不同,DeepSeek-V3 利用稀疏 MoE 框架。这种方法:


  • 降低计算成本:每次推理只使用模型的一小部分,从而提高了效率。

  • 提高专业化:不同的专家层处理特定的任务,从而更好地理解上下文。

  • 增强可扩展性:与密集的替代方案相比,该模型可以有效地扩展,同时保持较低的资源需求。


架构主要特性:


  • 多头潜在注意力 (MLA):通过压缩键值缓存来优化内存使用。

  • DeepSeek MoE 框架:平衡共享专家和路由专家以实现专业化。

  • 辅助无损负载均衡:防止不必要的损失功能,同时确保专家的利用率。

  • 多 tokens 预测:通过在一次传递中生成多个 tokens 来提高效率。

  • 128,000 个 Token 上下文窗口:启用扩展的推理功能和更好的文档理解。


02 高效的训练方法


DeepSeek-V3 使用 14.8 万亿个高质量 tokens 进行训练,优先考虑英文、中文、编程和数学内容。


该模型经历了三个主要阶段:


1、训练前:


  • 数据集来源于不同的文本语料库。

  • 使用 YaRN 方法,上下文窗口逐渐从 4K 扩展到 128K 令牌。

2、监督微调 (SFT):


  • 150 万个样品用于精炼性能。

  • 任务包括数学、逻辑推理、编程和一般 NLP 任务。


3、强化学习 (RL):


  • 包含基于模型和基于规则的奖励机制。

  • 提高决策准确性和响应连贯性。


对实际应用的影响


DeepSeek-V3 训练方法的效率在实际应用中具有切实的好处:


  • 更快的部署:优化的架构允许在生产环境中更快地适应。

  • AI 开发人员的成本更低:由于计算负载减少,与密集模型相比,运行 DeepSeek-V3 需要的资源更少。

  • 增强的 AI 系统的响应能力:该模型能够处理长序列并在一次传递中生成多个 tokens,从而提高了聊天机器人、研究助理和文档摘要工具的响应能力。


03 性能基准测试


DeepSeek-V3 在关键基准测试中与顶级专有和开源模型竞争:




04 开发人员的实际性能优势


  • 数学和逻辑推理:MATH-500 的更高分数意味着 DeepSeek-V3 非常适合 AI 驱动的辅导、科学研究和计算问题解决。

  • 编码和软件开发:凭借卓越的 HumanEval 性能,开发人员可以利用 DeepSeek-V3 进行智能代码生成、调试和自动化。

  • 多语言处理:DeepSeek-V3 在中文 NLP 任务中表现出色,使其在构建具有本地化语言支持的全球 AI 应用程序方面非常有效。

  • 长篇内容生成:扩展上下文处理允许对冗长的文档进行无缝总结和分析,使研究、新闻和内容营销应用程序受益。


关键要点:


  • DeepSeek-V3 在数学相关和编码任务方面超过了 GPT-4o。

  • 擅长多语言处理,尤其是中文 NLP。

  • 通过更高效的训练方法实现近乎最先进的性能。


05 为什么 DeepSeek-V3 不同于其他高级模型


与 GPT-4o 和 Claude 3.5 相比:


  • 具有成本效益的训练:在 278.8 万个 H800 GPU 小时上进行训练,成本仅为 560+ 万美元,明显低于 GPT-4o。

  • 开源可用性:与专有模型不同,DeepSeek-V3 在 MIT 许可下可用,为开发人员提供了更大的灵活性。

  • 针对专业任务进行了优化:在数学、逻辑推理和长格式文本处理方面取得优异的成绩。

  • 扩展上下文长度:具有 128K 上下文窗口,与 GPT-4o 的 32K 限制相比,DeepSeek-V4 提供了增强的文档理解和检索能力。


与 Llama 3.1 和其他开源模型相比:


  • 稀疏 MoE 与密集模型:每个 token 使用 37B 活动参数,在效率和性能之间提供平衡。

  • 使用 MoE 进行更快的推理:由于专家的选择性激活,DeepSeek-V3 可以实现近乎密集的模型精度,同时计算效率高。

  • 卓越的编码性能:在 HumanEval 基准测试中表现出色,使其成为 AI 辅助编码和调试的有力候选者。

  • 更强的多语言能力:在中文 NLP 任务中优于 Llama 3.1,使其成为全球 AI 应用的理想选择。


通过集成经济高效的训练、开源可访问性和卓越的基准测试,DeepSeek-V3 成为专有和开源 LLM 的强大竞争对手,为开发人员的应用程序提供功能强大且经济实惠的 AI 模型。


06 在本地运行 DeepSeek-V3:开发人员指南


鉴于其 404GB 的模型大小,在本地运行 DeepSeek-V3 需要优化策略。


以下是一些有效部署它的方法:


硬件要求


根据您的部署选择,所需的硬件会有所不同:


基本CPU设置(用于小规模测试和量化模型)


  • 处理器:8-core CPU (Intel i7 or AMD Ryzen 7)

  • RAM:32GB(最小),64GB(推荐)

  • 存储:NVMe SSD (500GB+)


中端 GPU 设置(用于高效的本地推理)


  • 显卡:NVIDIA RTX 3090 / RTX 4090(24GB VRAM 或更高)

  • 内存:64GB+

  • 存储:1TB NVMe SSD


高端 GPU 集群(用于完整模型执行)


  • GPU:NVIDIA A100/H100 (80GB VRAM) x2 或更高

  • 内存:512GB+

  • 存储:高速 SSD (2TB+)


选项 1:使用 Ollama(为简单起见,建议使用)


Ollama 提供了一种在本地运行 DeepSeek-V3 的简单方法,无需复杂的设置。


安装:

    brew install ollama  # For macOScurl -fsSL https://ollama.com/install.sh | sh  # For Linux


    下载并运行DeepSeek-V3:

      ollama pull deepseek-v3ollama run deepseek-v3


      选项 2:使用 llama.cpp 运行量化版本


      为了在低端硬件上高效运行 DeepSeek-V3 ,建议使用量化版本。


      步骤:


      1、从 Hugging Face 下载量化模型(.gguf 格式)。


      2、安装并执行:llama.cpp

        ./llama.cpp/llama-cli --model deepseek-v3-quantized.gguf --prompt "What is DeepSeek-V3?"


        选项 3:使用 LMDeploy 优化推理


        LMDeploy 通过利用 FP8 和 BF16 精度为 GPU 用户增强性能。


        安装和使用:

          pip install lmdeploylmdeploy run deepseek-v3


          鉴于其 404GB 的模型大小,在本地运行 DeepSeek-V3 需要优化策略。以下是一些有效部署它的方法:


          06 DeepSeek-V3 的有效利用


          DeepSeek-V3 的独特功能显著提高了其在各种实际应用中的有效性。


          以下是展示其优势的一些关键用例:


          自动化研究论文写作


          • 场景:研究人员需要结构良好的文献综述。

          • 为什么选择 DeepSeek-V3:其 128K  tokens 上下文窗口支持处理大型文本正文,确保连贯和全面的文献综述。

          • 可能的局限性:虽然 DeepSeek-V3 可以有效地生成结构化内容,但用户应验证参考文献和事实细节的准确性,以避免错误信息。


            import ollamaresponse = ollama.chat(    model='deepseek-v3',    messages=[{'role': 'user', 'content': 'Generate a literature review on AI in healthcare.'}])print(response['message']['content'])


            AI 驱动的代码生成和分析


            • 场景:开发人员需要一个 Python 脚本来抓取新闻文章。

            • 为什么选择 DeepSeek-V3:它的 MoE 架构专门处理结构化提示和与编程相关的查询。


              import ollamaresponse = ollama.chat(    model='deepseek-v3',    messages=[{'role': 'user', 'content': 'Write a Python script to scrape news articles using BeautifulSoup.'}])print(response['message']['content'])


              多语言内容创建


              • 场景:内容作者需要多种语言的摘要。

              • 为什么选择 DeepSeek-V3:凭借其强大的多语言处理能力,它可以生成高度准确的翻译和摘要。与许多竞争模型不同,DeepSeek-V3 在多语言处理方面表现出色,因为它在不同语言数据集上进行了高度优化的训练,与 Llama 3.1 等模型相比,它提供了更好的流畅性、上下文保留和翻译准确性。


                import ollamaresponse = ollama.chat(    model='deepseek-v3',    messages=[{'role': 'user', 'content': 'Summarize this article in both English and Chinese.'}])print(response['message']['content'])


                通过利用这些功能,DeepSeek-V3 成为许多研究人员、开发者和内容创作者的重要工具,为 AI 驱动的任务提供高效率和可扩展性。


                Last but not least


                DeepSeek-V3 是 AI 研究和部署的游戏规则改变者。它的开源可用性、卓越的架构、扩展的上下文处理和经济高效的培训使其成为开发人员和企业有吸引力的替代方案。


                为什么 DeepSeek-V3 值得我们探索:


                • 灵活性:对 API 使用或许可没有限制。

                • 优化性能:在高效的情况下与闭源模型竞争。

                • 开发人员友好型部署:支持多个开源工具在本地运行。

                53AI,企业落地大模型首选服务商

                产品:场景落地咨询+大模型应用平台+行业解决方案

                承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

                联系我们

                售前咨询
                186 6662 7370
                预约演示
                185 8882 0121

                微信扫码

                添加专属顾问

                回到顶部

                加载中...

                扫码咨询

                扫码登录
                登录即表示您同意《53AI网站服务协议》
                服务协议

                欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

                在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

                一、 定义

                本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

                会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

                知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

                二、 账号注册与登录

                登录方式:本网站支持以下登录方式,您可根据实际情况选择:

                微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

                手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

                账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

                实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

                未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

                三、 服务内容与规范

                知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

                服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

                禁止行为:您在使用服务时不得实施以下行为:

                利用技术手段批量爬取、下载、转存知识库内容;

                将知识库内容用于商业目的或未经授权地向第三方传播;

                干扰本网站正常运行或侵犯其他用户合法权益;

                发布违法违规信息或从事违反公序良俗的活动。

                四、 知识产权声明

                权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

                有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

                侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

                五、 个人信息保护

                我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

                您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

                您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

                六、 免责声明

                内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

                不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

                第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

                七、 违约责任

                如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

                如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

                八、 法律适用与争议解决

                本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

                因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

                九、 其他

                本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

                本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

                我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


                已查阅