人工智能——使用Ollama部署本地大模型

发布日期：2024-10-11 11:11:47 浏览次数： 4921

作者：IT运维大爆炸

微信搜一搜，关注“IT运维大爆炸”

1、简介

在如今的 AI 应用领域中，大模型（LLM，Large Language Models）已然成为推动前沿技术发展的关键力量。其中的 Top1 当属 OpenAI 的 GPT 系列无疑，它通过大规模的数据训练、可以执行高质量的语言处理任务，如聊天问答、文本生成、翻译等。

去年，ChatGPT 引入了定制个人知识库的支持，该功能采用了检索增强（RAG，Retrieval-Augmented Generation）技术，它使得模型能够在生成回答前、先从知识库中检索相关信息，显著提高了输出的准确性和信息量。然而，由于网络环境、隐私和政策等原因，导致线上知识库在使用时面临诸多限制，这促使更多人开始寻求部署自己的本地大模型和知识库。不过，当下各种大模型野蛮生长，没有统一的管理标准，虽然开源免费的很多、但部署到本地的门槛也不低。直到 Ollama 的出现 …

Ollama 是一个大模型的管理框架，其作用类似于 Docker：如果将每一个标准化的大模型视为“镜像”，那么 Ollama 就能够通过一行命令快速拉取并运行这些大模型。然而，Ollama 本身是基于命令行的服务，所以为了方便我们对大模型进行微调和使用，还需要引入 maxkb 。maxkb 提供了一个 ChatBot 界面，它会把我们输入的结构化知识、转换成大模型可以理解的语言（即嵌入向量），从而实现有效的交互。在本文中，将会引导大家何利用 Ollama 快速搭建本地的大模型服务，并结合 maxkb 构建一个私人定制知识库。

2、优势

开源免费： Ollama 及其支持的模型完全开源免费，任何人都可以自由使用、修改和分发。
简单易用：无需复杂的配置和安装过程，只需几条命令即可启动和运行 Ollama。
模型丰富： Ollama 支持 Llama 3、Mistral、Qwen2 等众多热门开源 LLM，并提供一键下载和切换功能。
资源占用低：相比于商业 LLM，Ollama 对硬件要求更低，即使在普通笔记本电脑上也能流畅运行。
社区活跃： Ollama 拥有庞大且活跃的社区，用户可以轻松获取帮助、分享经验和参与模型开发。

3、如何使用

安装 Ollama：根据你的操作系统，从 Ollama 官网下载并安装最新版本。
启动 Ollama：打开终端或命令行，输入 ollama serve 命令启动 Ollama 服务器。
下载模型：在模型仓库找到想要的模型，然后使用 ollama pull 命令下载，例如 ollama pull llama3:70b 。
运行模型：使用 ollama run 命令启动模型，例如 ollama run llama3:70b 。
开始聊天：在终端中输入你的问题或指令，Ollama 会根据模型生成相应的回复。

4、模型库

Ollama 支持在 ollama.com/library 上获取的模型列表，以下是一些可下载的示例模型：

Model	Parameters	Size	Download
Llama 3	8B	4.7GB	`ollama run llama3`
Llama 3	70B	40GB	`ollama run llama3:70b`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`
Solar	10.7B	6.1GB	`ollama run solar`

注意：运行 7B 模型至少需要 8 GB 的 RAM，运行 13B 模型需要 16 GB，运行 33B 模型需要 32 GB。

5、安装Ollama

[root@mast01 ~]# curl -fsSL https://ollama.com/install.sh | sh
>>> Downloading ollama...
######################################################################## 100.0%
>>> Installing ollama to /usr/local/bin...
>>> Creating ollama user...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink from /etc/systemd/system/default.target.wants/ollama.service to /etc/systemd/system/ollama.service.
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.
WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.

[root@mast01 ~]# ollama run llama3
pulling manifest 
pulling 6a0746a1ec1a... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 4.7 GB                         
pulling 4fa551d4f938... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  12 KB                         
pulling 8ab4849b038c... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  254 B                         
pulling 577073ffcc6c... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  110 B                         
pulling 3f8eb4da87fa... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  485 B                         
verifying sha256 digest 
writing manifest 
removing any unused layers 
success 
>>>  #直接退出即可

查看下服务状态

[root@mast01 ~]# systemctl status ollama
● ollama.service - Ollama Service
   Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: disabled)
   Active: active (running) since 四 2024-08-15 19:02:40 CST; 3s ago
 Main PID: 128252 (ollama)
  Tasks: 10
   Memory: 414.1M
   CGroup: /system.slice/ollama.service
           └─128252 /usr/local/bin/ollama serve

修改端口

#默认只能本地访问
[root@mast01 ~]# netstat -tunlp|grep ollama
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      23094/ollama     

[root@mast01 ~]# vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_HOST=0.0.0.0"

更改模型存放位置

[root@mast01 ~]# vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_MODELS=/data/ollama/models"

指定运行GPU

#如果有多张 GPU，可以对 CUDA_VISIBLE_DEVICES 配置，指定运行的 GPU，默认使用多卡
[root@mast01 ~]# vim /etc/systemd/system/ollama.service
Environment="CUDA_VISIBLE_DEVICES=0,1"

重启 ollama

[root@mast01 ~]# systemctl daemon-reload
[root@mast01 ~]# systemctl restart ollama

6、安装maxkb

MaxKB 是一款基于 LLM 大语言模型的知识库问答系统，由飞致云开发。通过MaxKB可以实现在网页上可视化使用大语言模型。本次采用docker的方式直接部署。

[root@mast01 ~]# docker run -d --name=maxkb -p 8080:8080 -v ~/.maxkb:/var/lib/postgresql/data cr2.fit2cloud.com/1panel/maxkb

访问（默认账号：admin 密码：MaxKB@123..）

7、导入模型

系统管理---->模型设置---->Ollama---->添加模型

模型配置（API Key处任意输入：我这里输的是*）

点击修改之后，会自动导入配置

8、创建应用

在应用处点击创建应用

输入自定义的应用名称，我这里输入ai

选择关联好的ai模型，点击右上角的保存并发布

回到概览，点击演示。可以根据需求修改参数

即可对话大语言模型

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-29

8G 内存足以，最适合 NAS 的本地「多模态模型」，极空间+MiniCPM

2026-06-29

腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

2026-06-29

WeKnora详解（一）：腾讯开源的 LLM 知识框架，5 分钟跑通你的第一个问答机器人

2026-06-29

腾讯WeKnora开源详解（四）：企业治理与开发者工具

2026-06-29

DeepSeek 再蒸新模型：这次选的是 Qwen3 和 Gemma4！Llama 这次上不了桌

2026-06-28

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

2026-06-27

腾讯混元发布 PhoneBuddy：4B 开源手机 Agent，在 AndroidWorld 上超越 Gemini3.1 Pro

2026-06-27

本地部署 Gemma 4 26B QAT 实践记录

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw