微信扫码
添加专属顾问
我要投稿
ollama v0.17.5带来Qwen3.5系列模型与多项性能优化,让开发者体验更稳定高效的AI模型运行。 核心内容: 1. 新增Qwen3.5系列模型,支持GPU/CPU混合加载与修复自我重复问题 2. 全面优化GPU/CPU分配机制与内存管理,提升运行稳定性 3. 采样算法重大升级,引入多重惩罚策略优化文本生成质量
2026年3月3日,Ollama v0.17.5版本正式发布。这一版本可谓一次重要升级,核心亮点在于新增了Qwen3.5系列模型,并全面改进了采样算法、GPU与CPU混合分配机制、内存峰值监控以及MLX引擎下的稳定性。本文将根据完整的更新内容,详细解析每一处技术改动,让开发者能够理解这一版本背后的架构进步和性能演化。
v0.17.5引入了全新的模型系列——Qwen3.5,包括 0.8B、2B、4B 与 9B 四个参数规模版本。这使得开发者能根据硬件资源灵活选择不同性能梯度的模型。
值得注意的是,在此次版本中,Qwen3.5模型支持 GPU 与 CPU 混合加载模式,同时针对模型“自我重复”问题进行了深度修复。新模型可通过命令重新下载:
ollama pull qwen3.5:35b
新版本修复了Qwen3.5模型在GPU与CPU拆分运行时的崩溃问题。此前,当模型部分参数映射至CPU后,DeltaNet层或KV缓存命中时容易出现panic,如今通过对线性注意力张量缺失、conv1d权重校验、层级递归验证进行系统修复,显著提升了混合资源下的运行稳定性。
ollama run --verbose 现在会显示峰值内存使用情况。新增的参数结构 Metrics 中增加了:
PeakMemory:以GiB或人类可读格式输出峰值内存;formatPeakMemory()函数:自动判断单位并格式化显示;Summary()方法中新增内存输出逻辑。这可以帮助开发者在分析模型运行性能时,即时观察峰值占用,便于评估MLX引擎的内存优化效果。
MLX runner一系列补丁包括:
api.StatusError将pipeline异常上报到客户端;mlx_reset_peak_memory()。这一系列操作让MLX在处理大模型时更稳定,也为后续GPU监控功能奠定基础。
新版sample/samplers.go重新定义了采样器结构。关键新增:
presence(存在惩罚)frequency(频率惩罚)repeat(重复惩罚)Accept()与Reset()机制保证历史token采样状态复位。这意味着模型在生成文本时,可通过三个维度惩罚控制重复输出的概率,使生成结果更自然、更具多样性。
transforms.go引入新的惩罚运算逻辑:
该设计明显针对语言模型重复倾向进行了抑制,使其在多轮生成中表现更像人类语言思维链条。
tokenCounts()函数新增令牌历史回溯长度为64,这相当于模型在采样时考虑过去64个令牌的统计分布。结合presence与frequency惩罚,能有效减少循环性表述问题。
server/routes.go和server/prompt.go修改了Prompt截断逻辑。新策略:
safetensors格式),将禁用上下文截断;这可以保证MLX模型不会因为Prompt截断而导致上下文缺失,从而提高多模态场景下的生成连贯性。
IsMLX()方法新增用于判断模型格式在images.go中新增:
func (m *Model) IsMLX() bool {
return m.Config.ModelFormat == "safetensors"
}它成为后续路径判断的核心函数,用于区分MLX模型与传统GGUF模型,从而决定不同的加载与截断策略。
原本的接口:
VRAMSize() uint64
TotalSize() uint64被统一重构为:
MemorySize() (total, vram uint64)
这使得每次调用能同时返回总占用与显存占用,支持更精准的GPU监控与调度。
相关修改贯穿整个系统:
llm/server.goserver/sched.gox/imagegen/server.gox/mlxrunner/client.gox/mlxrunner/server.go从图像生成模型到LLM主分支,接口结构全面统一,为后续跨引擎集成提供一致的内存访问标准。
model/models/qwen3next/model.go加入了推理层循环判定逻辑:
full_attention_interval推导混合布局;这部分逻辑由新单元测试model_new_test.go验证,确保混合注意力布局在导入旧模型时仍保持稳定。
model.Validate()全面检查每层SSM张量是否齐全,包括:
这样在加载过程中可以即时识别模型结构问题,防止DeltaNet等模块计算时崩溃。
新增**分块拼接树(balanced concat tree)**机制:
客户端返回内容中新增:
PeakMemoryEvalDurationPromptEvalDuration结合服务器端 /v1/status 新增内存字段,形成完整性能监控链路。
client.go里的 Ping()方法从/health改为/v1/status,增加返回:
让主调度器动态掌握MLX进程的上下文与内存实时状态。
新管线流程中:
CompletionResponse 向客户端报告完整评估计数、时长与内存峰值。这标志着ollama首次形成贯通的Prompt→采样→内存监控全链闭环。
v0.17.5新增大量测试文件,涵盖:
model_validate_test.go:验证层校验逻辑;transforms_test.go:验证惩罚公式正确性;samplers_test.go与benchmark_test.go:性能和采样行为稳定性;model_new_test.go:验证Recurrent层推断逻辑。这说明官方团队已将测试覆盖率扩大到生成过程、结构识别、采样算法和性能基准四个维度。
modelfile.mdx中更新参数表,帮助用户在自定义模型文件中直接使用新的采样控制项。这代表ollama开始将文本生成的可控性参数化,让开发者在不同场景下能轻松平衡“创造性”与“连贯性”。
代码地址:github.com/ollama/ollama
从整体来看,ollama v0.17.5不仅仅是一次小版本迭代,更是一次系统层级的性能与稳定性重构。
所有变化可归纳为三大技术方向:
这套更新让ollama在未来版本中能够同时支持更强大的多模态模型、更精准的采样控制以及更稳定的跨平台混合计算结构。
开发者建议立即升级至v0.17.5,并重新拉取对应模型文件以获得最稳定的性能体验:
ollama pull qwen3.5:9b
ollama正以这种“工程级精密迭代”的方式不断向更智能、更稳定、更开放的AI推理平台迈进。此次更新,是其从语言生成引擎迈向平台级分布计算架构的重要一步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-04
开启极简养虾,用 TRAE 快速部署 OpenClaw
2026-03-03
4 天 6.8K Star,这个 AI 漫剧项目火了:waoowaoo!
2026-03-02
FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式
2026-03-02
137K 行代码、零 clippy 警告:这个开源项目凭什么让 AI Agent 领域炸锅?
2026-03-01
别总盯着 Claude Cowork 了,OpenWork 开源版来了,功能直接拉满!Windows 客户端
2026-02-28
Claw 的普及,打开了 AI 社交的叙事空间
2026-02-28
构建比官方更顺手的 Codex,Skills 自动化同步上游
2026-02-27
Kimi-K2.5在RTX 6000 PROx8私有化部署教程
2026-01-27
2026-01-30
2026-01-29
2026-01-12
2025-12-22
2026-01-27
2026-01-28
2026-01-21
2025-12-10
2025-12-23
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16