微信扫码
添加专属顾问
我要投稿
ollama v0.20.0带来Gemma 4全家桶与多模态能力升级,AI开发者不容错过!核心内容:1. Gemma 4系列模型全面支持,从2B到31B多种规格可选2. 新增音频处理能力与SentencePiece-style BPE分词支持3. 文档完善与推理测试优化,提升开发者体验
2026年4月3日,Ollama 发布了 v0.20.0 版本。
这次更新的核心非常明确:Gemma 4 正式加入支持,并且围绕模型推理、音频能力、Tokenizer、视觉测试、转换器、OpenAI 音频接口等多个方向进行了集中增强。
如果你关注本次更新,可以直接从两个关键词理解:
下面按照本次版本更新内容,逐项整理成一篇完整的技术更新说明。
本次 v0.20.0 最重要的变化,就是 Gemma 4 相关支持的加入。
更新中给出了多个可直接运行的模型规格:
运行命令:
ollama run gemma4:e2b
这是 Gemma 4 的有效 2B 版本,适合轻量场景使用。
运行命令:
ollama run gemma4:e4b
这是 Gemma 4 的有效 4B 版本,在能力和资源消耗之间做了更平衡的选择。
运行命令:
ollama run gemma4:26b
这是一个 MoE(Mixture of Experts) 模型,描述中说明其 4B active parameters。
运行命令:
ollama run gemma4:31b
这是 Gemma 4 的 31B Dense 版本,属于更大规模的稠密模型。
从这次发布的信息来看,Gemma 4 已经形成了较完整的规格覆盖,从轻量到大模型都提供了支持方式,用户可以按资源和场景选择对应版本。
本次版本的更新记录非常集中,主要围绕 Gemma 4、音频、Tokenizer、文档、推理与测试展开。下面逐条梳理。
首先是文档相关更新:
这说明本次版本中对 pi 相关文档进行了更新。
虽然内容本身不多,但说明文档层面同步跟进了新版本变化,方便用户查阅和使用。
本次更新中有一个非常关键的底层能力变化:
这表示 Tokenizer 新增了 SentencePiece 风格的 BPE 支持。
这一变化对于模型适配和分词处理非常重要,尤其是在处理不同模型格式与分词规则时,可以提升兼容性。
与此同时,后续也有与 tokenizer 相关的配套修复:
这个改动说明在 pipeline 中会尊重 tokenizer 的 add_bos_token 设置。
换句话说,Tokenizer 的行为会更贴合配置,避免在处理输入时出现不一致情况。
更新中明确写到:
这表示 Gemma 4 的 GGML 模型支持已经加入。
这说明 Gemma 4 相关转换器已经根据新的 weight drop 命名进行了更新。
这是模型转换流程中非常关键的一环,确保新版本模型文件命名和导入过程能够顺利对接。
这次 v0.20.0 在音频方向的变化非常密集,可以说是重点之一。
更新内容:
这表明 Gemma 4 新增了音频支持,并且使用的是 USM conformer encoder。
更新内容:
这说明本次版本已经加入了 OpenAI 音频 API 支持,并且还包含 capability detection,也就是能力检测机制。
更新内容:
这意味着在 run 命令中已经支持音频输入。
更新内容:
这次新增了一个转写命令:
ollama transcribe MODEL
这对于音频转文字场景非常直接,命令形式也很清晰。
更新内容:
这进一步完善了音频能力,不仅是输入和转写,还补充了与 OpenAI 音频转写 API 相关的支持,以及 input_audio 能力。
更新内容:
这说明音频输入在命令层面被简化为 dropped file attachments,使用方式更直接。
从这一组更新可以看出,v0.20.0 在音频方向完成了从输入、转写、API 到命令行体验的一整套补强。
本次更新还有一组围绕 Gemma 4 的基础设施改进:
这说明已经加入了 parser、renderer、integration test plumbing。
也就是说,Gemma 4 在解析、渲染以及集成测试方面的配套设施已经补上。
这是一个非常具体的修复,说明 renderer 现在会正确输出 BOS token。
这说明渲染器被重写,以确保与 HF Jinja2 模板保持完全一致。
这个变化通常意味着模型输入模板的行为会更加标准化,减少模板差异带来的结果偏差。
Gemma 4 的 26B 版本是 MoE 模型,因此 MoE 相关改动非常关键。
更新内容:
虽然后半部分在记录中被截断,但已经明确看到两个重点:
更新内容:
这说明本次对 MoE 的 fused gate_up split 做了修复,同时还修复了 multiline tool-call arg parsing。
更新内容:
这是一个格式层面的整理,说明 Gemma4 MoE block 的字段对齐做了统一和规范化。
从这些信息可以看出,Gemma 4 的 MoE 版本在结构、解析、格式与计算路径方面都做了较完整的修复和优化。
更新中还有测试相关增强:
这表示集成测试进一步增强了视觉测试的稳定性,同时新增了 thinking tests。
从结果上看,这类更新主要是为了提升整体验证能力,让新版本在视觉相关场景和推理相关场景下更加可靠。
音频相关不仅有能力支持,也同步加入了测试覆盖:
这说明本次版本已经加入了 Gemma 4 音频测试,并且包括 OpenAI API 的覆盖。
这和前面音频能力的增强是相互呼应的,说明该版本并不是只做了功能接入,也同步补齐了对应验证。
更新记录中还有一些针对模型结构和代码可读性的整理:
前者表示移除了 Gemma 4 视觉模型中的冗余注释。
后者则对 Gemma4 MoE block 的字段对齐格式进行了调整。
这类更新虽然看起来偏细节,但对于代码维护、结构统一和后续协作非常重要。
本次更新里还有一项和缓存相关的改动:
这说明缓存机制做了调整:
这类优化通常和推理效率、上下文缓存复用体验有关,是底层能力增强的一部分。
更新记录中还有:
这表示 clamps 的初始化时机调整到了 backend load 之后。
从描述来看,这是一个初始化顺序上的修复,用于保证加载流程更稳定。
更新记录最后还有一个重要的合并信息:
这说明本次版本把 Gemma 4 的 GGML 改进进行了合并,和前面提到的 GGML model support、converter 更新等内容形成闭环。
整体来看,ollama v0.20.0 这次更新可以概括为几个核心方向:
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-04
Cursor 3来了:内置Codex,前端福音Design Mode,WorkTree多开
2026-04-03
淘宝跨端体验优化 AI 演进之路
2026-04-03
Qoder 工程实践:Harness Engineering 指南
2026-04-02
GLM-5.1 实测:面向 Agent 长程任务的国内第一模型
2026-04-02
AI代码的“屎山危机”才刚刚开始
2026-04-02
千问发布新一代大语言模型Qwen3.6-Plus
2026-04-02
疑似GPT-6曝光! OpenAI 联合创始人亲口爆料 Spud 新一代AI模型,并且拥有“大模型气味”!网友评论:它是第一个真正会“思考”的型号!
2026-04-02
和大橘子聊了聊他的 ColaOS:你为什么会把所有底牌都给一个人
2026-01-24
2026-01-10
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2026-03-13
2026-01-07
2026-01-21