微信扫码
添加专属顾问
我要投稿
Google最新开源模型Gemma 4本地运行全攻略,Ollama一键部署轻松搞定AI助手!核心内容: 1. Ollama框架的核心优势与安装方法 2. Gemma 4模型选型与本地部署全流程 3. 常用命令速查与交互式对话操作指南
Google DeepMind 于近期正式发布了 Gemma 4 系列开源模型,这是迄今为止他们推出的能力最强的开放权重模型家族。与此同时,Ollama 在 v0.20.0 版本中第一时间提供了对 Gemma 4 全系列的支持。本文将从零开始,带你完成 Ollama 的安装配置、Gemma 4 各版本的选型决策,以及在本地完整运行模型的全流程。
Ollama[1] 是一个开源的本地大语言模型运行框架,让你能够在自己的机器上以极低的门槛运行各种开源 LLM。它的底层基于 llama.cpp[2],将模型下载、量化、推理、API 服务等一系列复杂操作封装成简单的命令行工具。
核心优势:
ollama run llama3 就能下载并启动一个 8B 模型11434 端口提供 OpenAI 兼容的 API 接口隐私保障:所有推理运算在本地完成,数据不经过任何外部服务器。这是很多企业和个人开发者选择 Ollama 的重要原因之一。
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
前往 ollama.com[3] 下载安装包,运行 .exe 安装程序,按提示完成安装。
安装完成后验证:
ollama --version
# 下载并立即运行模型(如未下载则自动拉取)
ollama run <模型名>
# 仅下载模型,不启动对话
ollama pull <模型名>
# 查看本地已安装的模型
ollama list
# 删除本地模型
ollama rm <模型名>
# 查看模型详情(架构、参数量、量化方式等)
ollama show <模型名>
# 查看当前正在运行的模型
ollama ps
# 启动 Ollama 服务(安装后通常自动启动)
ollama serve
运行 ollama run <模型> 后,进入交互式对话:
>>> 你好,请介绍一下自己
你好!我是 Gemma 4,由 Google DeepMind 开发的开源多模态语言模型...
>>> /bye # 退出对话
>>> /help # 查看可用命令
>>> /clear # 清除对话历史
# 直接在命令后跟问题,执行完退出
ollama run gemma4 "用 Python 写一个快速排序算法"
# 带图片输入(视觉理解)
ollama run gemma4 "描述这张图片的内容 /path/to/image.png"
Gemma 4 是 Google DeepMind 于 2025 年 4 月发布的第四代 Gemma 开源模型家族,基于与 Gemini 3 相同的研究成果构建,是目前 Google 发布的能力最强的开放权重模型系列。
多模态能力
全系列模型均支持图像与文本混合输入,E2B 和 E4B 小型版本额外支持音频输入(语音识别与理解)。
双架构设计
同时提供 Dense(密集) 和 MoE(混合专家) 两种架构,覆盖从边缘设备到服务器的各种部署场景。
超长上下文窗口
可以在单次请求中处理整个代码库或超长文档。
推理(Thinking)模式
所有模型内置可配置的推理模式,通过在系统提示开头加入 <|think|> 标记来启用逐步推理,适合复杂逻辑任务。
原生函数调用
原生支持 Function Calling 和结构化 JSON 输出,是构建 AI Agent 的重要基础。
多语言支持
训练数据覆盖 140 余种语言,训练数据截止时间为 2025 年 1 月。
开源许可
采用 Apache 2.0 许可证,可商业使用,无限制。自 Gemma 系列首发至今,累计下载量已超过 4 亿次。
Gemma 4 提供四个尺寸,每个尺寸均有预训练(base)和指令微调(instruction-tuned,后缀为 -it)两个变体。Ollama 默认提供的是指令微调版本。
| 有效参数量 | |
| 架构 | |
| 上下文窗口 | |
| 多模态 | |
| Ollama 下载大小 | |
| 最低显存需求 | |
| Ollama 命令 | ollama run gemma4:e2b |
E2B 采用了 Per-Layer Embeddings(PLE) 架构创新——相比传统 Transformer 每层共享同一输入嵌入,PLE 为每一层提供独立的条件化信号,让模型在参数量极小的情况下实现更强的表达能力。这也是"Effective"名字的由来:实际能力远超参数量字面数字所暗示的水平。
适用场景:
| 有效参数量 | |
| 架构 | |
| 上下文窗口 | |
| 多模态 | |
| Ollama 下载大小 | |
| 最低显存需求 | |
| Ollama 命令 |
ollama run gemma4:e4bollama run gemma4) |
E4B 是 Gemma 4 家族中 性价比最高 的版本,也是 Ollama 的默认 tag(gemma4 不加后缀即为 E4B)。在基准测试中,E4B 的性能超越了 Gemma 3 的 27B 模型,而活跃参数量仅为后者的约六分之一。
适用场景:
| 总参数量 | |
| 架构 | |
| 上下文窗口 | |
| 多模态 | |
| Ollama 下载大小 | |
| 最低显存需求 | |
| Ollama 命令 | ollama run gemma4:26b |
MoE 架构的精妙之处在于:虽然模型总参数为 26B,但每次推理只激活约 3.8B 的参数(128 个专家中只有少数被激活),因此推理速度接近 4B 模型,而知识储备接近 26B 模型。在同等硬件上,26B MoE 的生成速度约是 31B Dense 的 2~3 倍。
在 Arena AI 开放模型榜单中,26B 版本位列全球第六,展现出远超其实际计算开销的能力。
适用场景:
| 参数量 | |
| 架构 | |
| 上下文窗口 | |
| 多模态 | |
| Ollama 下载大小 | |
| 最低显存需求 | |
| Ollama 命令 | ollama run gemma4:31b |
31B Dense 是家族中能力最强的本地部署版本,在 Arena AI 开放模型榜单中位列全球第三(截至 2025 年 4 月)。所有参数在每次推理中均参与计算,推理质量最高但速度相对较慢。
对于大多数消费者来说,需要配备 RTX 4090(24 GB)或同等显卡才能以 Q4 量化流畅运行。Apple Silicon 用户需要 M 系列芯片 + 32 GB 以上统一内存。
适用场景:
| E2B | |||||||
| E4B | |||||||
| 26B MoE | |||||||
| 31B Dense |
你的 GPU 显存是多少?
│
├── < 6 GB → 选 gemma4:e2b(纯 CPU 也能跑)
│
├── 6~8 GB → 选 gemma4:e4b(默认推荐,性价比最高)
│
├── 12~16 GB → 选 gemma4:e4b 或 gemma4:26b(取决于任务复杂度)
│
├── 16~24 GB → 选 gemma4:26b(MoE 速度快、质量强)
│
└── 24 GB 以上 → 选 gemma4:31b(最强质量)或 gemma4:26b(更快)
Apple Silicon 的统一内存架构(GPU 和 CPU 共享同一内存池)让 Mac 在运行大模型时有独特优势:
Ollama v0.20 起在 Apple Silicon 上基于 MLX 框架,无需额外配置即可获得加速。
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
从 ollama.com/download[3] 下载 .exe 安装包,运行后 Ollama 会自动作为后台服务运行。
验证安装:
ollama --version
# 应输出:ollama version 0.20.0 或更高
根据你的硬件情况选择版本:
# 默认版本(E4B,推荐大多数用户)
ollama pull gemma4
# 或指定具体版本
ollama pull gemma4:e2b # 轻量版,7.2 GB
ollama pull gemma4:e4b # 标准版,9.6 GB(与默认相同)
ollama pull gemma4:26b # 进阶版,18 GB,需 16 GB 显存
ollama pull gemma4:31b # 旗舰版,20 GB,需 24 GB 显存
下载过程中会显示进度条,模型存储于:
~/.ollama/models/C:\Users\<用户名>\.ollama\models\ollama list
# 输出示例:
# NAME ID SIZE MODIFIED
# gemma4:latest a2af4ae11ef0 9.6 GB 2 minutes ago
# 进入交互对话模式
ollama run gemma4
# 直接提问(单次查询)
ollama run gemma4 "解释一下 MoE(混合专家)架构的工作原理"
Gemma 4 全系列支持图像输入:
# 命令行方式(指定图片路径)
ollama run gemma4 "这张图片里有什么?请详细描述 /path/to/your/image.jpg"
在需要复杂推理的任务中,可以通过系统提示开启推理模式:
ollama run gemma4
进入对话后,在系统提示中加入 <|think|>:
>>> /set system "<|think|>你是一个擅长数学推理的助手,请一步步思考后再给出答案。"
>>> 证明:对任意正整数 n,n³ - n 都能被 6 整除。
开启后,模型会先输出内部推理过程,再给出最终答案,显著提升复杂任务的准确性。
Ollama 在本地启动后,会在 http://localhost:11434 提供 REST API,兼容 OpenAI 接口规范。
# 文本生成
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4",
"prompt": "用 Python 实现一个二分搜索算法",
"stream": false
}'
# 多轮对话
curl http://localhost:11434/api/chat \
-d '{
"model": "gemma4",
"messages": [
{"role": "user", "content": "你好,介绍一下自己"}
]
}'
# 图像输入(base64 编码)
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4",
"prompt": "描述这张图片",
"images": ["<base64_encoded_image>"]
}'
Ollama 同时提供 /v1/chat/completions 端点,可以直接替换 OpenAI SDK:
from openai import OpenAI
# 将 base_url 指向本地 Ollama
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # 任意字符串均可
)
response = client.chat.completions.create(
model="gemma4",
messages=[
{"role": "system", "content": "你是一个专业的代码审查员。"},
{"role": "user", "content": "请审查以下 Python 代码并指出问题:\n\ndef sum(lst):\n total = 0\n for i in range(len(lst)):\n total += lst[i]\n return total"}
],
)
print(response.choices[0].message.content)
pip install ollama
import ollama
# 简单对话
response = ollama.chat(
model='gemma4',
messages=[{'role': 'user', 'content': '解释量子纠缠'}]
)
print(response['message']['content'])
# 流式输出
for chunk in ollama.chat(
model='gemma4',
messages=[{'role': 'user', 'content': '写一首关于人工智能的诗'}],
stream=True
):
print(chunk['message']['content'], end='', flush=True)
import ollama from 'ollama'
const response = await ollama.chat({
model: 'gemma4',
messages: [{ role: 'user', content: '你好!' }],
})
console.log(response.message.content)
原因: 显存不足,模型被部分或全部卸载到 CPU 内存(RAM)运行,速度大幅下降。
解决方案:
方案 A:换用更小的模型
# 从 26b 降到 e4b
ollama pull gemma4:e4b
ollama run gemma4:e4b
方案 B:使用更激进的量化(减少显存占用)
# Ollama 默认使用 Q4_K_M,这已经是较好的平衡点
# 如需更省显存,可查找社区提供的 Q3 或 Q2 量化版本
ollama pull <社区量化模型>
方案 C:检查 GPU 是否被正确使用
# Linux/Windows(NVIDIA)
nvidia-smi
# macOS Apple Silicon
sudo powermetrics --samplers gpu_power -i 1000 -n 3
原因: 网络连接问题,模型文件较大(9~20 GB)。
解决方案:
Ollama 支持断点续传,重新运行 pull 命令即可继续:
ollama pull gemma4
也可以配置代理:
# Linux/macOS(在终端设置)
export HTTPS_PROXY=http://127.0.0.1:7890
ollama pull gemma4
# Windows(PowerShell)
$env:HTTPS_PROXY = "http://127.0.0.1:7890"
ollama pull gemma4
原因: 系统内存(RAM)或显存(VRAM)不足。
解决方案:
方案 A:减小上下文窗口(最有效)
# 创建自定义模型,设置较小的上下文
cat > Modelfile << 'EOF'
FROM gemma4
PARAMETER num_ctx 4096
EOF
ollama create gemma4-small-ctx -f Modelfile
ollama run gemma4-small-ctx
方案 B:退出其他占用显存的程序(浏览器、游戏、其他 AI 工具等)
方案 C:换用更小版本的 Gemma 4
表现:curl http://localhost:11434 返回连接被拒绝。
解决方案:
# 手动启动 Ollama 服务
ollama serve
# 或检查服务状态(Linux systemd)
sudo systemctl status ollama
sudo systemctl start ollama
# macOS:检查菜单栏是否有 Ollama 图标
# Windows:检查系统托盘是否有 Ollama 图标
原因: 图片路径错误,或使用了不支持图像的模型变体。
解决方案:
# 确保路径正确且文件存在
ls -la /path/to/image.jpg
# 使用绝对路径
ollama run gemma4 "描述这张图片 $(pwd)/image.jpg"
# 确认使用的是支持视觉的模型(gemma4 全系列均支持图像)
ollama show gemma4 | grep -i modal
原因: Ollama v0.20 已处理 chat template,直接使用 /api/chat 接口时通常无需手动处理思考标记。
解决方案:
使用 /api/chat 接口而非 /api/generate,前者已由 Ollama 正确处理模板:
curl http://localhost:11434/api/chat \
-d '{
"model": "gemma4",
"messages": [
{"role": "system", "content": "<|think|>请逐步推理。"},
{"role": "user", "content": "1000 以内有多少个质数?"}
]
}'
解决方案:
# PowerShell
nvidia-smi
ollama run gemma4:e2b "test"
# 观察 nvidia-smi 的 GPU 利用率是否上升
通过 Modelfile 可以为 Gemma 4 设定专属系统提示、参数和行为:
# 创建专属代码助手
FROM gemma4
# 系统提示(定义角色)
SYSTEM """
你是一位经验丰富的高级软件工程师,擅长 Python、TypeScript 和系统设计。
回答时请:
1. 给出可直接运行的代码
2. 添加必要的注释
3. 指出潜在的性能问题
4. 使用最新的语言特性
"""
# 推理参数
PARAMETER temperature 0.2 # 降低随机性,代码任务适合低温度
PARAMETER top_p 0.9
PARAMETER num_ctx 16384 # 扩大上下文,处理更长的代码文件
PARAMETER repeat_penalty 1.1 # 避免重复输出
# 从 Modelfile 创建模型
ollama create gemma4-coder -f Modelfile
# 使用自定义模型
ollama run gemma4-coder
Gemma 4 支持超长上下文,但默认 Ollama 上下文较小。可按需调整:
# 运行时指定上下文大小
OLLAMA_NUM_CTX=32768 ollama run gemma4
# 或通过 API 指定
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4",
"prompt": "分析以下代码库...",
"options": {
"num_ctx": 65536
}
}'
⚠️ 注意:上下文窗口越大,所需显存越多。32K tokens 大约额外需要 2~4 GB 显存。
Open WebUI[5] 是一个为 Ollama 提供类 ChatGPT 界面的开源 Web 前端,支持多模型切换、对话历史、图像上传等功能。
# 使用 Docker 一键启动
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
启动后访问 http://localhost:3000,在设置中连接 Ollama(http://localhost:11434)即可。
# 设置并发请求数(默认为 1)
OLLAMA_NUM_PARALLEL=4 ollama serve
# 设置模型在内存中保留的时间(默认 5 分钟,0 表示永久保留)
OLLAMA_KEEP_ALIVE=24h ollama serve
# 将以上配置持久化(Linux systemd)
sudo systemctl edit ollama
# 添加:
# [Service]
# Environment="OLLAMA_NUM_PARALLEL=4"
# Environment="OLLAMA_KEEP_ALIVE=24h"
Gemma 4 是目前开源社区中能力最强的多模态模型系列之一,而 Ollama 将其部署门槛降到了极低。以下是核心要点的快速回顾:
ollama run gemma4 |
|
ollama run gemma4:26b |
|
ollama run gemma4:31b |
|
ollama run gemma4:e2b |
|
localhost:11434 的 OpenAI 兼容 API |
一条命令,本地 AI,完全隐私,免费开源。 这就是 Ollama + Gemma 4 的价值所在。
本文基于 Ollama v0.20 和 Gemma 4 发布版(2025 年 4 月),内容以官方文档为准。
[1] Ollama: https://ollama.com/[2] llama.cpp: https://github.com/ggerganov/llama.cpp[3] ollama.com: https://ollama.com/download[4] CUDA Toolkit: https://developer.nvidia.com/cuda-downloads[5] Open WebUI: https://github.com/open-webui/open-webui
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-18
Google Gemini CLI 完整使用指南
2026-04-18
ollama v0.21.0 最新更新:Hermes Agent 与 Ollama 联动、Copilot CLI 集成、launch 配置优化、Gemma4 与 MLX 多项性能修复全解析
2026-04-18
Hermes Agent v0.9.0 全面解析:AI 助手的终极进化
2026-04-17
Qwen3.6-35B-A3B模型,正式开源!
2026-04-15
Hermes 凭什么两个月接棒 OpenClaw?
2026-04-15
HiClaw 上线 Worker 模板市场,提供稳定可共享的 Agent 生产力
2026-04-15
Agent新王诞生!Hermes 7周追上龙虾,中国用户可微信直连
2026-04-15
从 Hermes Agent 看长上下文语义压缩的工业级演进
2026-01-30
2026-01-27
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-26
2026-01-23
2026-04-03
2026-01-26
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28