微信扫码
添加专属顾问
我要投稿
Ollama 0.19悄然换芯,苹果M5芯片性能飙升,本地模型运行速度提升近一倍!核心内容: 1. Ollama底层引擎从llama.cpp切换至苹果MLX框架的技术变革 2. 统一内存架构带来的57%-93%性能提升实测数据 3. M5芯片专属GPU神经加速器的隐藏AI性能大招
Ollama 0.19 偷偷换了底层的引擎。
3 月 30 号发的,没有发布会,没有热搜,changelog 里写了一句「powered by MLX on Apple Silicon」。
但如果你用 Mac 跑本地模型,这个改动的影响比大多数发布会都大。
底层引擎,整个换了。
之前 Ollama 跑在 llama.cpp 上。现在跑在苹果自家的 MLX 框架里。不是小修小补,是从地基开始重建。
llama.cpp 是给 NVIDIA 写的。
它的底层逻辑很清晰:CPU 内存和 GPU 显存是分开的,数据要来回搬运。这个假设在 CUDA 世界完全正确——RTX 5090 的 GDDR7 带宽 1792 GB/s,搬得快。
但 Apple Silicon 从来不是这个世界。
从 M1 开始,苹果就用统一内存架构。CPU、GPU、神经引擎共享同一块物理内存。没有「搬」这个动作,因为数据本来就在同一个地方。
llama.cpp 不理解这件事。它还是会按 CUDA 的逻辑把数据从「CPU 侧」搬到「GPU 侧」,哪怕它们是同一块芯片上的同一个内存池。多了一道无用功。
MLX 从第一天起就为统一内存设计。零拷贝操作,张量直接在统一内存上计算,省掉整个搬运环节。
Ollama 官方博客给的数据:同一个 Qwen3.5-35B 模型,从 llama.cpp 切到 MLX——
prefill 从 1154 涨到 1810 tok/s,+57%。
decode 从 58 涨到 112 tok/s,+93%。
换 int4 量化之后,prefill 到 1851,decode 到 134。
Ollama 官方 benchmark:Qwen3.5-35B-A3B,NVFP4 量化(来源:ollama.com/blog/mlx)
这还只是 35B 级别的模型。
适用范围提醒(后文数据均在此范围内)
• MLX 加速目前仅对 Qwen3.5-35B-A3B 生效(Ollama 0.19 preview) • Llama 系列在 Ollama 中仍走 llama.cpp 后端,暂不受 MLX 加速 • 硬件门槛:32GB 统一内存起步,128GB 体验完整 • 35B(MoE)和 70B(稠密)是完全不同的体验档位,下文会展开
Ollama 博客里有一句容易被忽略的话:
On Apple's M5, M5 Pro and M5 Max chips, Ollama leverages the new GPU Neural Accelerators.
GPU Neural Accelerator。
苹果在 M5 系列的每个 GPU 核心里,塞了一个专用的 AI 加速单元。这不是 Neural Engine 的升级版,是 GPU 内部的硬件级加速。M5 Pro 和 M5 Max 的峰值 GPU 算力因此提升了 4 倍。
M5 Max:40 核 GPU,614 GB/s 带宽,128GB 统一内存。
这些数字单看没感觉。放到具体场景里就懂了。
独立硬件评测站 CraftRigs 用 M5 Max 128GB(40 核 GPU)跑了 Llama 3.1 70B Q4_K_M:
30 到 45 tok/s。
32 核版本约 30 tok/s。50 个 token 的回复,1.1 到 1.7 秒出完。
聊天、代码补全、文档总结——体感完全可用。
什么概念?M4 Max 跑同样的 70B 模型,只有 11-12 tok/s。M3 Max 是 8-9 tok/s。一代之间,3 倍。
这个 3 倍可以拆开看。硬件层面,M5 的 GPU Neural Accelerator 和更高带宽贡献了大部分。软件层面,苹果的 Metal 后端也在持续优化——同样的 M5 Max 芯片,llama.cpp 从 0.18 到 0.19 即使不走 MLX,也有小幅提升。
换句话说,M4→M5 的 3 倍来自硬件。而 Ollama 切换 MLX 带来的 额外 2 倍(35B 模型上 58→112 tok/s),目前只兑现了一小部分模型。一旦 Ollama 把 MLX 支持扩展到 Llama 系列,70B 上还能再翻一倍。
这是两个叠加的 Buff,现在只开了第一个。
更夸张的是 100B+ 级别。Reddit 上有用户拿 M5 Max 跑了 Qwen3.5-122B(4bit 量化),模型占 76GB 内存,decode 速度 54-65 tok/s。gpt-oss-120b 更是到了 64-87 tok/s。
128GB 统一内存,100B 模型随便装。
(来源:Reddit r/LocalLLaMA 用户实测,2026 年 4 月)
这里要先把话说清楚:70B 是 M5 Max 的主场,不是 RTX 5090 的。
NVIDIA 消费级旗舰 RTX 5090,24GB GDDR7,1792 GB/s 带宽。纸面带宽是 M5 Max 的 3 倍,7B、13B 模型上速度碾压 MacBook 没有任何悬念。
但 70B 模型的文件有 42.5GB。RTX 5090 的 24GB 显存装不下。
装不下的权重只能通过 PCIe 总线从系统内存实时搬运到 GPU。这个过程的带宽上限大约 64 GB/s(PCIe 5.0 x16),和 GPU 显存内部的 1792 GB/s 差了将近 30 倍。
瓶颈不在 GPU 算力,在搬运。
CraftRigs 实测 RTX 5090 跑 Llama 3.1 70B Q4_K_M:8-12 tok/s。M5 Max 是 30-45 tok/s,快了 3 到 4 倍。
原因很简单:M5 Max 的 128GB 统一内存把 42.5GB 的模型完整装下了,不需要搬运。
(来源:CraftRigs 三方独立实测,2026 年 4 月)
所以这个对比的前提是「跑 70B 以上模型」。如果你日常只用 7B 或 13B 模型做轻量任务,RTX 5090 依然是更快的选项。Apple Silicon 的优势在 70B 这个分水岭以上才会彻底释放。
0.19 不只是换个引擎。
缓存架构重写。 跨对话复用缓存,共享 system prompt 的场景(比如 Claude Code)内存占用更低,响应更快。Ollama 加了智能检查点机制,在 prompt 的关键位置存快照,减少重复计算。共享前缀的缓存存活时间也更长了——这对 coding Agent 场景至关重要,因为每次代码生成都会复用大量 system prompt。
NVFP4 量化支持。 这是 NVIDIA 的量化格式。之前本地推理用的是 GGUF 的 Q4_K_M,和生产环境的精度有差距。NVFP4 让本地推理的结果和云端生产环境保持一致。Ollama 用户调的参数、跑出来的结果,和服务器上用 NVIDIA GPU 跑的结果对得上。
原生 coding agent 支持。 Ollama 官方给了三行命令:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4
一行命令启动 Claude Code 或 OpenClaw。不需要 API key,不需要网络。
飞机上写代码,这事儿真的能干了。
(来源:Ollama 官方博客 ollama.com/blog/mlx,2026-03-30)
光比速度不比价格也不公平。
M5 Max 128GB 的 MacBook Pro ,国行价约 41,299 元。一台机器,屏幕、键盘、电池、扬声器全算在内,开箱即用。
RTX 5090 单卡国行约 16,499 元(市场实际成交价约2万至3万)。但要跑 70B 模型你还需要一块足够大的系统内存——至少 64GB DDR5 主板,这又是一笔投入。而且 8-12 tok/s 的体验只能算勉强可用。
如果你想用 NVIDIA 方案达到 M5 Max 同等的 30+ tok/s,现实路径是买两张 RTX 5090 做 NVLink——总价也快超过 4万元,还没算主板、电源、散热。
一台笔记本,跑赢了两张旗舰显卡。
当然,如果你的需求是 7B-13B 轻量推理,一台 RTX 4060(2,499 元)就够了,没必要上 M5 Max。Apple Silicon 的性价比优势只在 70B 以上才成立。
(价格来源:苹果官网、京东 2026 年 4 月售价,均为公开渠道参考价)
回到开头的问题:Ollama 换引擎到底改变了什么?
改变的不是某一个数字,是一条路线的可行性。
128GB 统一内存意味着:70B 稠密模型完整装入,30-45 tok/s;100B+ MoE 模型完整装入,50-87 tok/s。不需要量化到精度崩坏,不需要 CPU 卸载导致速度暴跌,不需要两张显卡做 NVLink。
M4 Max 时代,70B 跑 11-12 tok/s,能用但不流畅。M5 Max 一代跳到 30-45 tok/s,跨过了「日常可用」的门槛。Ollama 的 MLX 切换又证明了软件层还有至少 2 倍的余量没兑现。
这条路走通的前提是:你的模型够大(70B+),你的内存够大(128GB),你愿意为开箱即用的体验买单。
如果你的场景是 7B 模型做简单对话,RTX 4060 就够了,没必要看 M5 Max。
但如果你需要本地跑 70B 甚至 100B 模型做 coding agent、长文档分析、多轮复杂推理——目前没有比 M5 Max 128GB 更省心、更安静、更便宜的方案。
Ollama官方原文:https://ollama.com/blog/mlx
Macaron 🧁 | 算力的战争,不只看速度。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-06
DeepSeek V4 Pro桌面应用来了:1.6T参数,MIT协议开源
2026-05-04
开源!OpenClaw 桌面版 v0.4.0,对话、文件、模型与工具配置全面升级
2026-04-29
海外著名投资人的内部 AI 工具,才是真干货
2026-04-28
实测了 DeepSeek V4 后,我的评价是...
2026-04-26
Linux基金会背书 Goose:全能型本地 AI Agent 杀手,一键接管你的所有工作流!
2026-04-26
今天起,DeepSeek V4成OpenClaw默认模型!
2026-04-26
初识OpenSpec
2026-04-25
DeepSeek V4报告太详尽了!484天换代之路全公开
2026-03-30
2026-04-03
2026-03-23
2026-04-09
2026-03-31
2026-02-14
2026-02-18
2026-03-03
2026-02-22
2026-04-01
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02