我要投稿

Ollama 换引擎，苹果 M5 封神了

发布日期：2026-05-06 19:38:33 浏览次数： 1516

作者：O神经网络

微信搜一搜，关注“O神经网络”

Ollama 0.19 偷偷换了底层的引擎。

3 月 30 号发的，没有发布会，没有热搜，changelog 里写了一句「powered by MLX on Apple Silicon」。

但如果你用 Mac 跑本地模型，这个改动的影响比大多数发布会都大。

底层引擎，整个换了。

之前 Ollama 跑在 llama.cpp 上。现在跑在苹果自家的 MLX 框架里。不是小修小补，是从地基开始重建。

llama.cpp 是给 NVIDIA 写的。

它的底层逻辑很清晰：CPU 内存和 GPU 显存是分开的，数据要来回搬运。这个假设在 CUDA 世界完全正确——RTX 5090 的 GDDR7 带宽 1792 GB/s，搬得快。

但 Apple Silicon 从来不是这个世界。

从 M1 开始，苹果就用统一内存架构。CPU、GPU、神经引擎共享同一块物理内存。没有「搬」这个动作，因为数据本来就在同一个地方。

llama.cpp 不理解这件事。它还是会按 CUDA 的逻辑把数据从「CPU 侧」搬到「GPU 侧」，哪怕它们是同一块芯片上的同一个内存池。多了一道无用功。

MLX 从第一天起就为统一内存设计。零拷贝操作，张量直接在统一内存上计算，省掉整个搬运环节。

Ollama 官方博客给的数据：同一个 Qwen3.5-35B 模型，从 llama.cpp 切到 MLX——

prefill 从 1154 涨到 1810 tok/s，+57%。

decode 从 58 涨到 112 tok/s，+93%。

换 int4 量化之后，prefill 到 1851，decode 到 134。

Ollama 官方 benchmark：Qwen3.5-35B-A3B，NVFP4 量化（来源：ollama.com/blog/mlx）

这还只是 35B 级别的模型。

适用范围提醒（后文数据均在此范围内）

• MLX 加速目前仅对 Qwen3.5-35B-A3B 生效（Ollama 0.19 preview）

• Llama 系列在 Ollama 中仍走 llama.cpp 后端，暂不受 MLX 加速

• 硬件门槛：32GB 统一内存起步，128GB 体验完整

• 35B（MoE）和 70B（稠密）是完全不同的体验档位，下文会展开

M5 的隐藏大招

Ollama 博客里有一句容易被忽略的话：

On Apple's M5, M5 Pro and M5 Max chips, Ollama leverages the new GPU Neural Accelerators.

GPU Neural Accelerator。

苹果在 M5 系列的每个 GPU 核心里，塞了一个专用的 AI 加速单元。这不是 Neural Engine 的升级版，是 GPU 内部的硬件级加速。M5 Pro 和 M5 Max 的峰值 GPU 算力因此提升了 4 倍。

M5 Max：40 核 GPU，614 GB/s 带宽，128GB 统一内存。

这些数字单看没感觉。放到具体场景里就懂了。

70B 模型实测

独立硬件评测站 CraftRigs 用 M5 Max 128GB（40 核 GPU）跑了 Llama 3.1 70B Q4_K_M：

30 到 45 tok/s。

32 核版本约 30 tok/s。50 个 token 的回复，1.1 到 1.7 秒出完。

聊天、代码补全、文档总结——体感完全可用。

什么概念？M4 Max 跑同样的 70B 模型，只有 11-12 tok/s。M3 Max 是 8-9 tok/s。一代之间，3 倍。

这个 3 倍可以拆开看。硬件层面，M5 的 GPU Neural Accelerator 和更高带宽贡献了大部分。软件层面，苹果的 Metal 后端也在持续优化——同样的 M5 Max 芯片，llama.cpp 从 0.18 到 0.19 即使不走 MLX，也有小幅提升。

换句话说，M4→M5 的 3 倍来自硬件。而 Ollama 切换 MLX 带来的 额外 2 倍（35B 模型上 58→112 tok/s），目前只兑现了一小部分模型。一旦 Ollama 把 MLX 支持扩展到 Llama 系列，70B 上还能再翻一倍。

这是两个叠加的 Buff，现在只开了第一个。

更夸张的是 100B+ 级别。Reddit 上有用户拿 M5 Max 跑了 Qwen3.5-122B（4bit 量化），模型占 76GB 内存，decode 速度 54-65 tok/s。gpt-oss-120b 更是到了 64-87 tok/s。

128GB 统一内存，100B 模型随便装。

（来源：Reddit r/LocalLLaMA 用户实测，2026 年 4 月）

和 RTX 5090 怎么比

这里要先把话说清楚：70B 是 M5 Max 的主场，不是 RTX 5090 的。

NVIDIA 消费级旗舰 RTX 5090，24GB GDDR7，1792 GB/s 带宽。纸面带宽是 M5 Max 的 3 倍，7B、13B 模型上速度碾压 MacBook 没有任何悬念。

但 70B 模型的文件有 42.5GB。RTX 5090 的 24GB 显存装不下。

装不下的权重只能通过 PCIe 总线从系统内存实时搬运到 GPU。这个过程的带宽上限大约 64 GB/s（PCIe 5.0 x16），和 GPU 显存内部的 1792 GB/s 差了将近 30 倍。

瓶颈不在 GPU 算力，在搬运。

CraftRigs 实测 RTX 5090 跑 Llama 3.1 70B Q4_K_M：8-12 tok/s。M5 Max 是 30-45 tok/s，快了 3 到 4 倍。

原因很简单：M5 Max 的 128GB 统一内存把 42.5GB 的模型完整装下了，不需要搬运。

（来源：CraftRigs 三方独立实测，2026 年 4 月）

所以这个对比的前提是「跑 70B 以上模型」。如果你日常只用 7B 或 13B 模型做轻量任务，RTX 5090 依然是更快的选项。Apple Silicon 的优势在 70B 这个分水岭以上才会彻底释放。

Ollama 还做了什么

0.19 不只是换个引擎。

缓存架构重写。 跨对话复用缓存，共享 system prompt 的场景（比如 Claude Code）内存占用更低，响应更快。Ollama 加了智能检查点机制，在 prompt 的关键位置存快照，减少重复计算。共享前缀的缓存存活时间也更长了——这对 coding Agent 场景至关重要，因为每次代码生成都会复用大量 system prompt。

NVFP4 量化支持。 这是 NVIDIA 的量化格式。之前本地推理用的是 GGUF 的 Q4_K_M，和生产环境的精度有差距。NVFP4 让本地推理的结果和云端生产环境保持一致。Ollama 用户调的参数、跑出来的结果，和服务器上用 NVIDIA GPU 跑的结果对得上。

原生 coding agent 支持。 Ollama 官方给了三行命令：

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4

一行命令启动 Claude Code 或 OpenClaw。不需要 API key，不需要网络。

飞机上写代码，这事儿真的能干了。

（来源：Ollama 官方博客 ollama.com/blog/mlx，2026-03-30）