微信扫码
添加专属顾问
我要投稿
专为混合专家模型设计的通信库DeepEP,优化数据传输,提升分布式训练效率。 核心内容: 1. 支持全交换GPU核心,实现高吞吐低延迟通信 2. 动态资源调控,根据任务需求调整SM数量 3. 支持低精度运算,加速大规模分布式训练
DeepEP 是一个专为混合专家(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐、低延迟的全交换(all-to-all)GPU核心(kernels),即MoE的调度(dispatch)与合并(combine)操作,并支持FP8等低精度运算。
为适配DeepSeek-V3论文中提出的组限门控(group-limited gating)算法,提供了一组针对非对称域带宽转发优化的核心,例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性,适用于训练和推理预填充(prefilling)任务,同时支持流多处理器(Streaming Multiprocessors, SM)数量调控。
针对延迟敏感的推理解码场景,DeepEP包含一组基于纯RDMA的低延迟核心,以最小化通信延迟。此外,该库还引入了基于钩子(hook)的通信-计算重叠方法,此方法无需占用任何SM资源。
DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题,通过优化数据传输和资源调度,实现“降本增效”。
高效的全对全通信(All-to-All):支持节点内(NVLink)和节点间(RDMA)的高带宽通信,优化数据在不同专家子网络间的快速交换。
动态资源调控:基于群组限制门控算法(group-limited gating),动态分配GPU计算单元(SM)数量,任务多时增加资源,任务少时降低功耗,减少资源浪费。支持低精度运算:原生支持FP8格式,减少内存占用并加速计算,适用于大规模分布式训练
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-22
OpenClaw源码解读系列:自动回复管线
2026-02-22
OpenClaw源码解读系列:插件系统
2026-02-22
如何在Mac mini M4上为OpenClaw接入iMessage
2026-02-20
拆解 OpenViking:把 Agent 上下文从"向量碎片"变成"可操作文件系统"
2026-02-20
产业之声 | 从OpenClaw爆火,看代码数据的价值与软件行业的重构
2026-02-20
OpenClaw 2026.2.19发布:为Apple Watch打造,40余项安全加固
2026-02-19
深度拆解 Clawdbot(OpenClaw)架构与实现
2026-02-19
当你在电脑中放入"赛博龙虾": Openclaw (原Clawdbot)安全风险分析
2026-01-27
2026-02-06
2026-01-29
2026-01-30
2026-01-12
2025-12-22
2026-01-28
2026-01-27
2025-12-10
2025-12-23
2026-02-11
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16