微信扫码
添加专属顾问
我要投稿
专为混合专家模型设计的通信库DeepEP,优化数据传输,提升分布式训练效率。 核心内容: 1. 支持全交换GPU核心,实现高吞吐低延迟通信 2. 动态资源调控,根据任务需求调整SM数量 3. 支持低精度运算,加速大规模分布式训练
DeepEP 是一个专为混合专家(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐、低延迟的全交换(all-to-all)GPU核心(kernels),即MoE的调度(dispatch)与合并(combine)操作,并支持FP8等低精度运算。
为适配DeepSeek-V3论文中提出的组限门控(group-limited gating)算法,提供了一组针对非对称域带宽转发优化的核心,例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性,适用于训练和推理预填充(prefilling)任务,同时支持流多处理器(Streaming Multiprocessors, SM)数量调控。
针对延迟敏感的推理解码场景,DeepEP包含一组基于纯RDMA的低延迟核心,以最小化通信延迟。此外,该库还引入了基于钩子(hook)的通信-计算重叠方法,此方法无需占用任何SM资源。
DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题,通过优化数据传输和资源调度,实现“降本增效”。
高效的全对全通信(All-to-All):支持节点内(NVLink)和节点间(RDMA)的高带宽通信,优化数据在不同专家子网络间的快速交换。
动态资源调控:基于群组限制门控算法(group-limited gating),动态分配GPU计算单元(SM)数量,任务多时增加资源,任务少时降低功耗,减少资源浪费。支持低精度运算:原生支持FP8格式,减少内存占用并加速计算,适用于大规模分布式训练
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-15
OpenEvals下一代AI模型评估标准
2025-12-15
AutoGLM:推倒那面墙
2025-12-15
狂揽162K Star!n8n 2.0强势来袭,这次改动有点狠。
2025-12-14
ollama v0.13.3 最新发布:新增模型与功能优化详细解读
2025-12-14
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14
AutoGLM开源:手机AI Agent的“安卓时刻”来了
2025-12-14
给你家 AI Agent 装个「长期记忆」,这个开源库一行代码搞定
2025-12-12
深度解析 Devstral 2:Mistral 如何重新定义开源代码智能体(Agentic Coding)
2025-10-20
2025-11-19
2025-10-27
2025-10-27
2025-10-03
2025-09-17
2025-09-29
2025-10-29
2025-09-29
2025-11-17
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17