我要投稿

技能英伟达桌面超算，加入苹果Mac Studio快爆了：推理速度飙升至277%

发布日期：2025-10-18 12:24:42 浏览次数： 1850

作者：量子位

微信搜一搜，关注“量子位”

英伟达桌面超算，邪修玩法来了！

两台DGX Spark串联一台苹果Mac Studio，就能让大模型推理速度提升至2.77倍。

这是GitHub三万星大模型框架作者EXO Lab团队发布的最新成果。

这个EXO Labs，专门研究把大模型放到各种家用设备上运行。

之前让MacBook、iPad、手机等设备组成集群跑405B大模型的分布式推理框架，还有DeepSeek-R1" data-itemshowtype="0" linktype="text" data-linktype="2">两台Mac跑满血DeepSeek-R1，都是这家工作室的手笔。

这次他们又把DGX Spark和M3 Ultra结合，利用它们各自的优势，在大模型部署上整出了新活。

那么，这套邪修组合具体是如何实现的呢？

PD分离+流式传输，让设备各司其职

要想理解如何结合两种设备的优势，需要先了解大模型推理的工作方式。

大模型的推理，主要分为Prefill和Decode两个阶段。

Prefill处理提示并为每个Transformer层构建一个KV缓存，Decode阶段则是根据构建好的整个KV缓存生成token。

两个阶段任务不同，对硬件性能的侧重也不一样，整体上来说Prefill更吃算力，而Decode吃内存带宽。

具体来说，Prefill阶段计算量随提示长度呈二次增长，利用Flash Attention等技术，可以优化为线性增长，但计算量依然庞大，因此主要受制于计算能力；

到了Decode阶段，KV缓存已经计算完毕，不需要再重新运算，矩阵-矩阵乘法变成了运算量更低的向量-矩阵乘法比，对算力的需求降低，主要受制于内存带宽。

再看EXO Labs手里的两种设备，DGX Spark算力强但是带宽不行，Mac Studio搭载的M3 Ultra则刚好相反，内存带宽高但算力不如DGX Spark。

具体来说，DGX Spark有100TFLOPS的fp16算力，M3 Ultra只有26TFLOPS；而M3 Ultra有256GB@819GB/s的内存，DGX Spark却只有128GB@273GB/s。

所以，EXO Labs的思路就是把Prefill和Decode阶段分开，分别分配给擅长的设备，DGX Spark负责Prefill，Mac则负责Decode，这也就是AI Infra业界常说的PD分离。

最简单的PD方式就是先把Prefill做完，然后再传输给Decode设备进行Decode。

但这就增加了两个阶段之间的通信成本，如果传输时间过长，效果可能适得其反。

所以，进行PD分离运算需要解决的关键问题是，就是KV缓存传输。

这里EXO Labs运用了流式传输的思想。

我们在网上看电影、刷B站时，并不需要把整个视频文件加载完才能开始播放，而是将一小段加载到内存之后就可以观看，后面的内容边看边加载，这就是流式传输。

音视频可以边传边看，KV缓存也可以边算边传，因为大模型当中包含了多个Transformer层，使得KV缓存不一定非要以一个Blob的形式到达Decode设备，而是可以逐层到达。

第1层的Prefill完成后，其KV缓存就开始传输到给M3 Ultra去Decode，同时第2层的Prefill则在DGX Spark上开始，每一层的通信都与后续层的计算重叠。

实际上， EXO还会在处理层的过程中传输该层的KV向量，因为KV向量的计算是在最繁重的计算步骤之前进行的。

利用EXO框架，PD分离、逐层KV流以及硬件感知都可以自动完成。

启动EXO时，它会自动发现连接的所有设备，并针对计算吞吐量、内存带宽、内存容量和网络特性对每个设备进行分析。

给定一个模型和拓扑结构， EXO就会规划哪个设备应该处理Prefill，哪个设备应该处理Decode，是否需要跨层流水线，何时传输KV对，以及如何在网络条件发生变化时进行调整。

最终，在DGX Spark和Mac Studio的组合下，Llama-3.1 8B在Prefill阶段的速度提升至了Mac的3.79倍，Decode速度提升至DGX Spark的3.37倍，整体提升至Mac Studio的2.77倍。

Three More Things

EXO这种PD分离的做法，英伟达自己也在进行尝试，其即将推出的Rubin CPX平台将使用计算密集型Rubin CPX处理器进行Prefill，配备巨大HBM3e内存带宽的标准Rubin芯片则负责Decode。

再说EXO团队这次用的DGX Spark，最近正在进行配送，马斯克、奥特曼还有LeCun都收到了，其中还有老黄亲自送货上门。

另外苹果最新发布的M5，AI性能也有一定提升。

在M5芯片的MacBook Pro上，首个Token生成速度（主要受Prefill影响）提升到了M1的6.4倍、M4的3.55倍。

另外，也有更快的图像/视频生成、更快的微调，以及更高的吞吐量。

不过宣传上说的是性能的又一次跃升，但仔细一看，M5甚至不如M4 Max，M4 Max又甚至不如M3 Ultra……

而EXO的这波操作下，M3 Ultra的含金量似乎更高了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-05

Palantir发布新产品Chain Reaction：面向美国人工智能基础设施的操作系统

2025-12-05

OpenAI内部代码泄露！最强模型「皇帝」登基，0思考延时吓人

2025-12-04

一文看懂AI智能体系统背后的重要技术——上下文工程（Context Engineering）

2025-12-04

大模型“落地三件套”：Ollama本地部署、API 调用和LLM封装

2025-12-04

Enterprise AI的三层架构

2025-12-04

Claude Opus 4.5 的灵魂文档被人逆向提取！Anthropic 负责人承认属实

2025-12-03

一文详解容器面向大模型与AI Agent的技术变革

2025-12-03

详解Palantir AIP大模型调用工具：Query Objects

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从需求场景出发的AI应用项目落地方法论

2025-09-19

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

Qwen3-Coder与Claude Code深度对比：谁是你的AI编程助手？

2025-09-14

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

大家都在问

Bun × Anthropic：AI 运行时变革的信号？

2025-12-03

MCP是不是真凉了？

2025-12-01

如何规划一个「有节奏感」的AI产品路线图？

2025-11-28

AI Agent是「未来应用入口」，还是又一轮「技术泡沫」？

2025-11-27

200 美元，一天干完半年活：这个新出的AI科学家，是来砸博士生饭碗的吗？

2025-11-27

如何通俗的理解AI Agent的工作流？

2025-11-27

为什么大模型在企业落地那么难？

2025-11-25

Palantir牵手Snowflake，我们能学到什么？

2025-11-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部