我要投稿

DeepSeek开源DeepEP: 高效的专家并行通信库

发布日期：2025-02-26 07:41:17 浏览次数： 2309

作者：跳动的数据

微信搜一搜，关注“跳动的数据”

DeepEP 是一个专为混合专家（Mixture-of-Experts, MoE）和专家并行（Expert Parallelism, EP）设计的通信库。它提供了高吞吐、低延迟的全交换（all-to-all）GPU核心（kernels），即MoE的调度（dispatch）与合并（combine）操作，并支持FP8等低精度运算。

为适配DeepSeek-V3论文中提出的组限门控（group-limited gating）算法，提供了一组针对非对称域带宽转发优化的核心，例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性，适用于训练和推理预填充（prefilling）任务，同时支持流多处理器（Streaming Multiprocessors, SM）数量调控。

针对延迟敏感的推理解码场景，DeepEP包含一组基于纯RDMA的低延迟核心，以最小化通信延迟。此外，该库还引入了基于钩子（hook）的通信-计算重叠方法，此方法无需占用任何SM资源。

DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题，通过优化数据传输和资源调度，实现“降本增效”。

高效的全对全通信（All-to-All）：支持节点内（NVLink）和节点间（RDMA）的高带宽通信，优化数据在不同专家子网络间的快速交换。

动态资源调控：基于群组限制门控算法（group-limited gating），动态分配GPU计算单元（SM）数量，任务多时增加资源，任务少时降低功耗，减少资源浪费。支持低精度运算：原生支持FP8格式，减少内存占用并加速计算，适用于大规模分布式训练

性能

常规内核（支持NVLink与RDMA转发）

我们在H800（NVLink最大带宽约160 GB/s）上测试了常规内核的性能，每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。测试遵循DeepSeek-V3/R1的预训练配置（每批次4096个令牌，隐藏层维度7168，前4组选择，前8位专家激活，采用FP8调度与BF16合并）。

低延迟内核（纯RDMA支持）

我们在H800上测试了低延迟内核的性能，每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。测试遵循DeepSeek-V3/R1的典型生产环境配置（每批次128个令牌，隐藏层维度7168，前8位专家激活，采用FP8调度与BF16合并）。

normal

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-22

OpenClaw源码解读系列：自动回复管线

2026-02-22

OpenClaw源码解读系列：插件系统

2026-02-22

如何在Mac mini M4上为OpenClaw接入iMessage

2026-02-20

拆解 OpenViking：把 Agent 上下文从"向量碎片"变成"可操作文件系统"

2026-02-20

产业之声 | 从OpenClaw爆火，看代码数据的价值与软件行业的重构

2026-02-20

OpenClaw 2026.2.19发布：为Apple Watch打造，40余项安全加固

2026-02-19

深度拆解 Clawdbot（OpenClaw）架构与实现

2026-02-19

当你在电脑中放入"赛博龙虾": Openclaw (原Clawdbot)安全风险分析

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部