微信扫码
添加专属顾问
我要投稿
Ollama v0.21.0重磅更新:AI工作流协作新纪元开启,性能优化与集成能力全面升级! 核心内容: 1. Hermes Agent与Ollama联动实现自我改进型AI工作流 2. launch体系增强与Copilot CLI等集成功能完善 3. Gemma4模型优化与MLX性能修复等稳定性提升
2026年4月17日,github.com/Ollama/ollama 发布了 v0.21.0 版本。
这一版本的更新重点非常明确:围绕 launch 体系、Hermes Agent、Copilot CLI、OpenCode、OpenClaw、云推荐展示、Windows 指引、Gemma4 相关优化、MLX 性能修复 等多个方向进行了集中增强与修补。
本次版本号为 v0.21.0 Latest,发布时间为 2026年4月17日。
从整体内容来看,这一版更新主要集中在以下几个方面:
这意味着 v0.21.0 并不只是一个简单的小版本修补,而是一次兼顾 新能力接入 与 稳定性提升 的版本。
本次最值得关注的新增内容之一,就是:
launch: add hermes
官方给出的说明是:
Hermes Agent with Ollama
ollama launch hermes
并且强调:
Hermes learns with you, automatically creating skills to better serve your workflows. Great for research and engineering tasks.
同时补充说明:
Use Nous Research's self-improving AI agent with Ollama.
这说明在 v0.21.0 中,Ollama 已经新增了对 Hermes 的启动支持。对于用户来说,最直观的使用方式就是通过:
ollama launch hermes
来启动 Hermes Agent 与 Ollama 的联动体验。
这一点的意义在于,它把 Ollama 的使用场景从单纯的模型调用,进一步扩展到了 自我改进型 AI agent 的工作流协作模式。官方描述中明确提到,Hermes 会在与你一起工作时自动创建技能,以更好地服务你的工作流,尤其适用于 研究和工程任务。
从发布内容来看,这一条是 v0.21.0 的标志性新增能力之一,也是很多用户会第一时间关注的更新点。
v0.21.0 中,launch 相关的更新非常集中,涉及多个子场景,说明官方在持续打磨这个入口的体验和配置处理逻辑。
更新项:
launch: skip unchanged integration rewrite configration
这条变更的核心意思,是在进行 integration rewrite 配置处理时,如果内容没有变化,就跳过重写。
这种优化通常意味着减少不必要的配置写入,降低重复操作带来的干扰,并提升执行效率与配置稳定性。
更新项:
launch: OpenCode inline config
这一项说明 launch 针对 OpenCode 进行了 inline config 相关处理。
也就是说,在启动或集成配置流程中,OpenCode 的配置方式得到了调整,更偏向内联式配置处理。
后面版本信息里还出现了一条相关的回退记录:
Revert "launch/opencode: use inline config"
结合上下文可以看出,OpenCode 的 inline config 在版本迭代过程中经历了调整与回退,最终在 v0.21.0 的更新内容中体现为新的 launch 配置变化。
更新项:
launch: skip unchanged managed-single rewrite
这条与前面的 integration rewrite 类似,重点同样是“跳过未变化内容”。
这里针对的是 managed-single rewrite,当配置未发生变化时,不再执行重复重写。
这一改动的价值在于:
更新项:
launch/openclaw: fix --yes flag behaviour to skip channels configuration
这一项是针对 openclaw 场景下 --yes 参数行为的修复。
修复目标很明确:当用户使用 --yes 时,应当跳过 channels 配置。
这说明在交互式或半自动化启动过程中,--yes 参数原本可能没有完全按照预期处理 channels 配置,而这次版本修复了这一行为,让自动确认场景更符合预期。
更新项:
launch: always list cloud recommendations first
这一条非常直接:在 launch 流程中,云推荐内容将始终优先展示在前面。
这意味着当用户进入相关推荐或启动建议时,云推荐会排在更靠前的位置,提升可见性。这种调整属于界面/顺序层面的优化,但会直接影响用户第一眼看到的信息。
更新项:
cmd/launch: show WSL guidance on Windows instead of handing off
这条修改面向 Windows 用户。
原本在 Windows 环境中,流程可能会直接 hand off,而现在改为 显示 WSL 指引。
这是一项非常实用的体验调整,说明官方希望在 Windows 场景下提供更明确的指导信息,而不是直接把流程交出去。
对于 Windows 用户来说,这样会更清楚下一步该如何操作。
更新项:
cmd/launch: add Copilot CLI integration
这是本次 v0.21.0 中另一个很重要的新增能力。
官方在 cmd/launch 中加入了 Copilot CLI integration,意味着 launch 体系进一步扩展到了 Copilot CLI 相关集成。
从发布说明看,这项更新已经被明确列出,说明它是本次版本新增的一项正式能力,而不是单纯的修补。
对于使用 launch 工具链、并希望与命令行 AI 助手工作流结合的用户来说,这项集成是值得重点关注的内容。
v0.21.0 中,Gemma4 相关内容非常多,涉及模板、渲染、精度、缓存、router projection 等多个方面,说明这一模型在本版中接受了密集优化。
更新项:
gemma4: render differently based on model size
这条说明 Gemma4 的渲染逻辑会根据模型大小采用不同方式。
这意味着不同规模的 Gemma4 模型,在展示或处理时会有差异化渲染策略。
更新项:
Keep Gemma4 router projection in source precision
这一条明确指出,要让 Gemma4 的 router projection 保持在 source precision。
这是一个偏底层的模型处理优化,核心目标是保证精度处理符合原始来源精度要求。
更新项:
make empty block conditional
这项变更与 Gemma4 模板或结构处理逻辑相关,核心是让 empty block 变成条件化处理。
这种修改通常用于避免无意义的空块输出或渲染行为,让模板结构更合理。
更新项:
mlx: fix gemma4 cache to use logical view
这条说明在 MLX 相关模块中修复了 Gemma4 cache,使其使用 logical view。
缓存视图的逻辑修正,通常与上下文管理和缓存一致性密切相关。
更新项:
mlx: additional gemma4 cache fixes
这条继续补充了 Gemma4 cache 的修复工作,说明相关问题不止一处,官方进行了进一步修正。
更新记录中还有:
Merge pull request ... from .../gemma4-split-templates
虽然这里不展开人名与编号,但从内容可以看出,本次版本对 Gemma4 的 templates 进行了拆分处理,并进行了合并。
整体来看,Gemma4 在 v0.21.0 中经历了:
v0.21.0 版本中,MLX 也有一组连续更新,说明这一部分同样是本次发布的重要组成。
更新项:
mlx: add compiled closure support
这条更新说明 MLX 新增了 compiled closure support。
从字面上看,这意味着在编译执行路径中,对 closure 的支持得到了增强,为后续的性能优化和表达能力提升提供基础。
更新项:
models: fuse MLP activation functions via mlx_compile
这条说明模型层面使用 mlx_compile 对 MLP activation functions 进行了融合。
这属于典型的性能优化方向:通过融合运算减少开销,提升执行效率。
更新项:
mlx: Improve gemma4 performance with fused operations
这一条进一步表明,Gemma4 在 MLX 路径下通过 fused operations 获得了性能提升。
与前面的融合激活函数结合来看,这次版本在计算图优化上投入较多。
更新项:
mlx: fix RotatingKVCache.concat() dropping context on mid-rotation
这是一个比较关键的修复。
问题描述很明确:在 mid-rotation 的时候,RotatingKVCache.concat() 会丢失 context。
本次修复的目标就是避免这种上下文丢失。
对于缓存系统来说,上下文连续性非常重要,因此这项修复具有明显的稳定性意义。
更新项:
mlx: fix imagegen lookup
这条说明修复了 imagegen lookup 的查找问题。
虽然发布内容没有展开细节,但从条目本身可以看出,这是一个与图像生成查找路径有关的修复项。
前文已经提到:
mlx: fix gemma4 cache to use logical viewmlx: additional gemma4 cache fixes这两项都属于 MLX 与 Gemma4 的组合修复,说明缓存逻辑在本版中经历了多轮调整。
MLX 部分的更新可以概括为:
可以看出,MLX 这一组变更主要围绕 性能、缓存、上下文连续性、查找路径 展开。
更新项:
create: avoid gc race with create
这条更新说明在 create 流程中,官方修复了与 gc 相关的 race 问题。
从命名上看,这是一个并发或时序类问题,修复目标是避免 create 与 gc 之间发生竞态。
这类修复虽然不一定在日常使用中立刻可见,但对稳定性非常重要,尤其是在创建流程和资源回收流程同时运行时。
为了方便快速回顾,下面把本次版本中涉及的条目再次整理一遍:
这些内容共同构成了 Ollama v0.21.0 的完整更新面貌。
从发布内容来看,v0.21.0 的价值主要体现在三点:
Hermes Agent、Copilot CLI 都被纳入 launch 体系,说明 Ollama 在扩展实际工作流协作能力。
多个 “skip unchanged rewrite” 相关更新、OpenClaw 的 --yes 行为修复、云推荐优先展示、Windows WSL 指引优化,都在提升 launch 使用体验。
Gemma4、MLX、缓存、融合运算、上下文连续性等多个修复,说明本版对底层实现和性能稳定性做了大量工作。
代码地址:github.com/ollama/ollama
整体来看,ollama v0.21.0 不是一个简单的常规维护版本,而是一次兼顾 新集成、新 agent 支持、启动流程优化、模型渲染和缓存修复、性能改进 的集中更新。
本次版本中最值得关注的亮点包括:
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-18
Ollama 本地部署 Gemma 4 完全指南
2026-04-18
Google Gemini CLI 完整使用指南
2026-04-18
Hermes Agent v0.9.0 全面解析:AI 助手的终极进化
2026-04-17
Qwen3.6-35B-A3B模型,正式开源!
2026-04-15
Hermes 凭什么两个月接棒 OpenClaw?
2026-04-15
HiClaw 上线 Worker 模板市场,提供稳定可共享的 Agent 生产力
2026-04-15
Agent新王诞生!Hermes 7周追上龙虾,中国用户可微信直连
2026-04-15
从 Hermes Agent 看长上下文语义压缩的工业级演进
2026-01-30
2026-01-27
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-26
2026-01-23
2026-04-03
2026-01-26
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28