微信扫码
添加专属顾问
我要投稿
ollama v0.13.4带来全新模型与性能优化,为开发者提供更高效的AI开发体验。 核心内容: 1. 新增Nemotron 3 Nano和Olmo 3系列模型,提升智能代理和语言模型性能 2. 默认启用Ollama引擎和Flash Attention机制,优化计算效率 3. 修复Gemma 3架构问题,增强长上下文处理能力
2025年12月13日,Ollama v0.13.4版本预发布,随后于2025年12月16日正式发布。本次更新是一次重要的版本迭代,包含新模型的推出、引擎默认设置的调整、Flash Attention机制的自动化启用,以及一系列对Gemma 3架构模型的修复与增强。以下是详细更新内容。
1. Nemotron 3 Nano
这是一款全新的开放高效智能代理模型,定义了高性能标准,面向智能代理应用场景。
2. Olmo 3 与 Olmo 3.1
这一系列开放语言模型旨在推动语言模型研究科学化。
其预训练基于 Dolma 3 数据集,后训练使用 Dolci 数据集,代表了更系统化的语言模型训练流程。
api/client.go 文件中修正了 Modelfile 的超链接后缀,将.md改为.mdx。cocoa 对话框代码中增强了多文件处理机制,确保缓冲区内存安全。server.go 修改了模型路径检查逻辑,在路径不可用时使用默认路径。wintray/eventloop.go 改进了底层事件循环的内存安全处理,增加了注释控制。docs/api.md 全面更新对 Modelfile.mdx 的链接引用,使说明一致化。docs/tools/extract-examples包含:
提取后可执行:
README.md:介绍如何将 MDX 中的代码示例提取到临时目录运行。main.go:示例提取脚本,支持自动生成 package.json 与 pyproject.toml 依赖文件。.
cd <tmp-dir>
npm install # JS示例
node file.js 或 python file.py 或 bash file.shenvconfig/config.go 调整了 OLLAMA_NEW_ENGINE 的默认值逻辑,引入 BoolWithDefault 方法,使引擎启用逻辑更灵活。1. Flash Attention 类型系统引入ml/device.go 新增 FlashAttentionType 枚举类型:
AutoDisabledEnabled此设计使 Flash Attention 模式控制更细化,支持自动适配硬件。
2. GGML 图计算增强
在 fs/ggml/ggml.go 中,Flash Attention 引入枚举类型接口,支持多种量化缓存类型检测与验证方法,提升兼容性。
3. Llama 引擎增强llama/llama.go 重构了 Flash Attention 参数逻辑——支持自动、启用与禁用三种模式,适配不同模型及硬件环境。
4. LLM 服务逻辑优化llm/server.go 增加了 Flash Attention 用户显式设置检测逻辑,并完善了 KV 缓存量化兼容性处理。当使用量化 KV 缓存类型时必须启用 Flash Attention。
KV 缓存校验机制进一步完善,增加更详细的警告提示与逻辑分支。
5. ML 后端结构改进ml/backend.go 与 ml/backend/ggml/ggml.go 中统一 Flash Attention 类型接口,并在注意力计算中使用新的枚举系统,实现高效的多设备内存调度与算子融合优化。
model/models/gemma3/model_text.go
对 Gemma 3 的旋转位置嵌入 (RoPE) 算法进行了调整:
ropeValuesForLayer 方法,按层返回位置嵌入基础值与缩放因子。ropeScale 为 1.0。openai/responses.go
调整了工具调用消息的合并逻辑:
同时新增全面的单元测试 openai/responses_test.go,覆盖函数调用与工具输出场景,验证新逻辑稳定性。
代码地址:github.com/ollama/ollama
ollama v0.13.4 是一次大幅度增强版发布,重点在于:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-17
打造 Claude Code 并行自主开发环境:Auto Claude + GLM 4.7
2026-03-17
又一款开源的LLM生成3D场景的3D编辑器,这次功能更强大了
2026-03-17
英伟达的NemoClaw,能帮AI代理这匹“野马”套上缰绳吗?
2026-03-17
腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%!
2026-03-17
英伟达重磅开源!Nemotron 3 Super:专为AI智能体打造的"超级大脑
2026-03-16
22.4K Stars,减少 93% 上下文。AI Agents 专用浏览器自动化 CLI 真强!
2026-03-13
你的 AI Agent 真的在受控运行吗?
2026-03-12
Harness Engineering 的防御视角:从 Codex Security 看 AI 生成代码的治理
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2025-12-22
2026-01-28
2026-01-21
2025-12-23
2026-01-06
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21