免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ollama v0.12.0 发布:引入云端大模型预览,支持本地与云端无缝融合

发布日期:2025-09-21 16:47:38 浏览次数: 1560
作者:福大大架构师每日一题

微信搜一搜,关注“福大大架构师每日一题”

推荐语

Ollama v0.12.0带来革命性更新,本地与云端模型无缝融合,让开发者轻松调用超大模型资源。

核心内容:
1. 重磅推出云端大模型预览功能,支持数据中心级硬件推理
2. 新增BERT和Qwen3系列模型架构支持
3. 多项GPU兼容性优化和API行为改进

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

在这里插入图片描述

2025年9月18日,Ollama 发布了 v0.12.0 版本更新,本次更新带来了一个重量级的新特性——云端模型(Cloud Models)预览功能,使开发者不仅能在本地运行模型,还能直接调用云端算力运行超大模型,实现本地与云端的无缝协同。同时,本版本也对多种模型架构的支持、GPU 兼容性以及 API 行为做了重要优化。


一、核心更新亮点

1. 云端大模型(Cloud Models)预览

在 v0.12.0 中,Ollama 首次提供了云端推理能力,开发者可以运行体量更大的模型,而无需担心本地机器显存容量不足。云端模型通过 数据中心级别硬件 提供推理计算,同时保持了 Ollama 一贯的隐私与安全政策——不保留用户数据

通过云端模式,你可以直接调用如 qwen3-coder:480b-cloudgpt-oss:120b-cloudDeepSeek-v3.1:671b-cloud 等超大模型,并与本地工具链无缝集成。

示例运行命令:
.

ollama run qwen3-coder:480b-cloud

当前可用的云端模型包括:

  • • qwen3-coder:480b-cloud(阿里巴巴长上下文编码及智能体任务优化模型)
  • • gpt-oss:120b-cloud(OpenAI 自研推理与智能体任务模型)
  • • gpt-oss:20b-cloud
  • • deepseek-v3.1:671b-cloud(混合推理模式模型,支持思维链与非思维链模式)

2. 新增模型架构支持

  • • BERT 系列模型现已在 Ollama 引擎上运行,更适合各种文本分类、检索与 NLU 场景。
  • • Qwen 3 系列模型也已集成至 Ollama 引擎,可在本地和云端流畅运行。

3. GPU 与性能优化

  • • 修复了 旧款 NVIDIA GPU 在新驱动环境下无法被检测的问题。
  • • 修复了多版本 CUDA 环境下的兼容性问题(Multi-CUDA version skew)。
  • • 优化了模型导入流程,避免了 ollama create 导入失败的 bug。
  • • 构建系统优化,防止并行构建导致内存或线程资源耗尽。

4. API 行为改进

  • • 针对 /api/generate 接口,如果提示中包含初始 <think> 标记,将不会进行重复解析,避免响应异常。
  • • API 与 OpenAI 接口现已完全兼容,可直接用 OpenAI SDK 方式调用。
  • • 新增远程代理(Remote Proxy)支持,可更方便部署在跨网络环境。

二、使用方法

1. 安装或升级

下载最新 v0.12.0 版本后,即可使用云端功能。


2. 签到认证

云端推理需要在 Ollama 平台进行账号登录:
.

ollama signin

退出登录:
.

ollama signout

3. 运行云端模型

CLI 方式运行:
.

ollama run gpt-oss:120b-cloud

查看已拉取的模型列表:
.

ollama ls

输出示例:
.

NAME                      ID            SIZE        MODIFIED
gpt-oss:120b-cloud        569662207105  -           5 seconds ago
deepseek-v3.1:671-cloud   d3749919e45f  -           2 days ago
qwen3-coder:480b-cloud    11483b8f8765  -           2 days ago

4. API 调用示例

JavaScript
.

import ollama from "ollama";

const response = await ollama.chat({
  model: "gpt-oss:120b-cloud",
  messages: [{ role: "user", content: "天空为什么是蓝色的?" }],
});
console.log(response.message.content);

Python
.

import ollama

response = ollama.chat(
  model='gpt-oss:120b-cloud',
  messages=[{'role''user','content''天空为什么是蓝色的?'}]
)
print(response['message']['content'])

cURL
.

curl http://localhost:11434/api/chat -d '{
  "model""gpt-oss:120b-cloud",
  "messages": [{
    "role""user",
    "content""天空为什么是蓝色的?"
  }],
  "stream"false
}'

三、总结

Ollama v0.12.0 的发布,标志着该平台从本地推理走向了云端与本地融合的新阶段。这不仅解决了本地硬件性能不足的问题,还统一了 API 调用方式,使得开发者能够像使用本地模型一样,轻松调用超大规模云端模型。

 

·

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。


欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

·

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询