微信扫码
添加专属顾问
我要投稿
一体机限制了DeepSeek性能提升,探索高稀疏度MoE模型的挑战。 核心内容: 1. DeepSeek模型的特殊性与一体机的不匹配 2. MoE模型工作原理及其对存储和调度的影响 3. DeepSeek-R1/V3模型参数量与实际激活量分析
把MoE模型装进一体机的不科学之处在于↓
然而,这种一体机部署模式算力是我买断的,难道不应该让他们尽量都干活,从而让算力最大化使用吗?
我的显存/内存/硬盘都是为了装下6710亿参数,但实际干活只有370亿参数…
一体机其实是运行DeepSeek这种MoE模型的最差选择,更适合运行那些非MoE的全参数激活模型。
Prefill阶段:部署单元4节点(32张H800),32路专家并行和数据并行。
Decode阶段:部署单元18节点(144张H800),144路专家并行和数据并行。
这就意味着,一个22节点的集群(176张卡),才能发挥出最优的推理吞吐和延迟。(让每个专家获得足够的输入,都忙活起来,而不是“占着茅坑不拉屎”)
第一,蒸馏版,体积小性能好,效果差点不耽误练手;
第三,相信不久的将来下一代DeepSeek就会发布,届时再下手也不迟。
大模型的前方是星辰大海,但我们,才刚刚上路呢。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
Nacos 3.0 正式发布:MCP Registry、安全零信任、链接更多生态
2025-04-30
Qwen3小模型实测:从4B到30B,到底哪个能用MCP和Obsidian顺畅对话?
2025-04-30
WeClone: 用微信聊天记录微调大语言模型
2025-04-30
强化微调来袭!如何让AI真正“听懂”人类需求
2025-04-30
部署运维SRE专属大模型
2025-04-29
Qwen3 一手实测
2025-04-29
MCP、RAG、Function Calling、Agent与微调如何重塑未来应用
2025-04-28
Al代码审查实践:从构想到快速落地
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-30
2025-04-27
2025-04-27
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20