我要投稿

Kimi-K2.5在RTX 6000 PROx8私有化部署教程

发布日期：2026-02-27 19:29:00 浏览次数： 2391

作者：AI架构师圈子

微信搜一搜，关注“AI架构师圈子”

Kimi-K2.5

RTX 6000 PRO x 8 私有化部署教程

「从零开始，手把手教你把Kimi请回家」

Ubuntu + Docker + vLLM | 包含 Docker 单命令 & Docker Compose 两种方式

系统

Ubuntu 22.04+

显卡

RTX 6000 PRO x 8

显存

单卡 96GB / 总 768GB

一、开篇：这篇文章能帮你什么？

最近 Kimi-K2.5 模型火了，性能强悍，开源免费。很多朋友想把它部署到自己的服务器上，既保护数据隐私，又能随意折腾。但一看部署文档——一堆命令行参数，头大了。

别急！这篇教程就是你的“救命稻草”。我们会用最通俗的语言，手把手带你完成以下操作：

•环境准备：安装 Docker、NVIDIA 驱动、NVIDIA Container Toolkit

•下载模型：把 Kimi-K2.5 模型文件下载到服务器

•方式一：用一条 docker run 命令直接起飞

•方式二：用 Docker Compose 优雅管理，适合长期运维

•验证测试：确认服务起来了，而且好用

适合谁读？

有一台装了 8 张 RTX 6000 PRO 显卡的 Ubuntu 服务器，想拿它跑 Kimi-K2.5 的同学。哪怕你是“命令行新手”，跟着做就行！

二、环境准备：“磨刀不误砍柴工”

在跑模型之前，我们得先把“地基”打好。主要包括三件事：NVIDIA 驱动、Docker 和 NVIDIA Container Toolkit。

2.1 确认 NVIDIA 驱动已安装

先看看你的显卡驱动装好了没有，运行以下命令：

nvidia-smi

如果能看到 8 张 RTX 6000 PRO 整整齐齐地排列，恭喜，说明驱动没问题。如果报错，请先安装 NVIDIA 驱动（推荐 550+）：

sudo apt updatesudo apt install -y nvidia-driver-550sudo reboot # 重启后再次运行 nvidia-smi 确

2.2 安装 Docker

如果还没装 Docker，执行以下命令（官方推荐方式）：

# 卸载旧版本（如果有的话）sudo apt remove docker docker-engine docker.io containerd runc# 安装依赖sudo apt updatesudo apt install -y ca-certificates curl gnupg lsb-release# 添加 Docker 官方 GPG keysudo install -m 0755 -d /etc/apt/keyringscurl -fsSL https://download.docker.com/linux/ubuntu/gpg \| sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg# 添加仓库echo "deb [arch=$(dpkg --print-architecture) \signed-by=/etc/apt/keyrings/docker.gpg] \https://download.docker.com/linux/ubuntu \$(lsb_release -cs) stable" \| sudo tee /etc/apt/sources.list.d/docker.list > /dev/null# 安装 Dockersudo apt updatesudo apt install -y docker-ce docker-ce-cli \containerd.io docker-compose-plugin

小贴士

安装完成后运行 docker --version 确认版本。建议把当前用户加入 docker 组，这样不用每次都加 sudo：sudo usermod -aG docker $USER，然后重新登录。

2.3 安装 NVIDIA Container Toolkit

这个工具让 Docker 容器能“看到”你的 GPU。没有它，容器里的模型就是个“瞎子”，有显卡也用不上。

# 添加仓库distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpgcurl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list \| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list# 安装sudo apt updatesudo apt install -y nvidia-container-toolkit# 配置 Docker 运行时sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker

验证一下是否成功：

docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi

如果能看到熟悉的 nvidia-smi 输出，恭喜你，GPU 已经在 Docker 里“上线”了！

三、下载模型：“把Kimi请回家”

Kimi-K2.5 是个“大家伙”，模型文件体积不小。我们需要把它下载到服务器的 /data/Kimi-K2.5 目录下。

3.1 使用 Hugging Face CLI（推荐）

# 安装 huggingface_hubpip install -U huggingface_hub# 创建目录sudo mkdir -p /data/Kimi-K2.5# 下载模型（具体仓库名以官方为准）huggingface-cli download moonshotai/Kimi-K2.5 \--local-dir /data/Kimi-K2.5

3.2 使用 modelscope（国内社区，更快）

pip install modelscopemodelscope download --model moonshotai/Kimi-K2.5 \--local_dir /data/Kimi-K2.5

⚠️ 注意

模型文件很大，下载可能需要较长时间。建议使用 screen 或 tmux 在后台运行，避免 SSH 断开导致下载中断。另外，确保 /data 分区有足够的磁盘空间（至少预留 500GB+）。

四、方式一：Docker Run “一键起飞”

这是最简单粗暴的方式，一条命令搞定。适合快速测试和“先跑起来再说”的场景。

4.1 启动命令

复制以下命令，粘贴到终端执行：

docker run -d \--runtime nvidia \--gpus all \--name kimi-k25-0203 \-e SAFETENSORS_FAST_GPU=1 \-e LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:\/usr/local/cuda/targets/x86_64-linux/lib \-v /data/Kimi-K2.5:/data/Kimi-K2.5 \-p 8008:8008 \--ipc=host \--restart unless-stopped \vllm/vllm-openai:cu130-nightly \--model /data/Kimi-K2.5 \--served-model-name kimi-k2.5 \--tensor-parallel-size 8 \--trust-remote-code \--tool-call-parser kimi_k2 \--reasoning-parser DeepSeek_r1 \--enable-auto-tool-choice \--gpu-memory-utilization 0.92 \--max-model-len 65536 \--max-num-batched-tokens 32000 \--max-num-seqs 8 \--disable-custom-all-reduce \--api-key mykey \--port 8008 \--host 0.0.0.0

4.2 参数详解：“每个参数都不是白给的”

别被这一堆参数吓到，我们来逐个解读：

参数

说人话解释

--runtime nvidia --gpus all

告诉 Docker：“把所有 GPU 都拿出来用！”

-d

后台运行，不占用你的终端窗口

--name kimi-k25-0203

给容器取个名字，方便后续管理

-e SAFETENSORS_FAST_GPU=1

加速模型加载，让显卡直接读取模型文件

-v /data/Kimi-K2.5:...

把主机的模型目录“挂载”到容器里

-p 8008:8008

端口映射，外部访问用 8008 端口

--ipc=host

共享主机内存，多 GPU 通信必备

--restart unless-stopped

容器崩了自动重启，省心！

--tensor-parallel-size 8

用 8 张卡并行计算，每张卡分担一部分

--gpu-memory-utilization 0.92

用 92% 显存，留点余地防爆显存

--max-model-len 65536

最大支持 64K token 的上下文长度

--max-num-seqs 8

最多同时处理 8 个请求

--api-key 8712011+a

API 密钥，请替换成你自己的密钥！

--tool-call-parser kimi_k2

启用 Kimi 专用工具调用解析器

--reasoning-parser deepseek_r1

启用深度思考推理解析器

⚠️ 安全提醒

请务必修改 --api-key 为你自己的强密码！示例中的密钥仅用于演示，千万不要直接用于生产环境。

五、方式二：Docker Compose “优雅管家”

如果你打算长期运行这个服务，Docker Compose 是更好的选择。它用一个 YAML 文件记录所有配置，不用每次都输一大串命令，而且更容易管理和修改。

5.1 创建项目目录

mkdir -p /opt/kimi-k25 && cd /opt/kimi-k25

5.2 编写 docker-compose.yml

创建文件 /opt/kimi-k25/docker-compose.yml，内容如下：

services:kimi-k25:image: vllm/vllm-openai:cu130-nightlycontainer_name: kimi-k25-0203runtime: nvidiaipc: hostrestart: unless-stoppedports:- "8008:8008"volumes:- /data/Kimi-K2.5:/data/Kimi-K2.5environment:- SAFETENSORS_FAST_GPU=1- LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:/usr/local/cuda/targets/x86_64-linux/lib- NVIDIA_VISIBLE_DEVICES=alldeploy:resources:reservations:devices:- driver: nvidiacount: allcapabilities: [gpu]command: >--model /data/Kimi-K2.5--served-model-name kimi-k2.5--tensor-parallel-size 8--trust-remote-code--tool-call-parser kimi_k2--reasoning-parser deepseek_r1--enable-auto-tool-choice--gpu-memory-utilization 0.92--max-model-len 65536--max-num-batched-tokens 32000--max-num-seqs 8--disable-custom-all-reduce--api-key mykey--port 8008--host 0.0.0.0

5.3 启动服务

cd /opt/kimi-k25# 启动（后台运行）docker compose up -d# 查看日志（实时跟踪）docker compose logs -f# 停止服务docker compose down# 重启服务docker compose restart

5.4 两种方式对比

对比项

Docker Run

Docker Compose

难度

⭐简单，一行命令

⭐⭐需写 YAML 文件

可维护性

⭐修改参数得重新输入

⭐⭐⭐改 YAML 就行

版本管理

⭐得查历史记录

⭐⭐⭐文件可 git 管理

多服务编排

⭐不支持

⭐⭐⭐原生支持

适合场景

快速测试、临时使用

长期运行、生产环境

简单总结：Docker Run 就像点外卖，方便快捷；Docker Compose 就像开餐厅，规范管理。看你的场景选择即可。

六、验证测试：“把Kimi叫醒”

服务启动后，模型加载需要几分钟（这毕竟是个大模型）。先看看日志：

docker logs -f kimi-k25-0203

当你看到类似下面的输出时，说明服务已经准备就绪：

INFO: Uvicorn running on http://0.0.0.0:8008

6.1 用 curl 测试

试试发一个聊天请求：

curl http://localhost:8008/v1/chat/completions \-H 'Content-Type: application/json' \-H 'Authorization: Bearer mykey' \-d '{"model": "kimi-k2.5","messages": [{"role": "user", "content": "你好，介绍一下你自己"}],"max_tokens": 512}'

如果收到了 JSON 格式的回复，包含模型的自我介绍，恭喜你，部署成功！

6.2 查看可用模型列表

curl http://localhost:8008/v1/models \-H 'Authorization: Bearer mykey'

应该能看到 kimi-k2.5 在模型列表中。

6.3 用 Python 调用（可选）

如果你喜欢 Python，可以用 OpenAI SDK 无缝对接：

pip install openaifrom openai import OpenAIclient = OpenAI(base_url="http://localhost:8008/v1",api_key="mykey")response = client.chat.completions.create(model="kimi-k2.5",messages=[{"role": "user", "content": "用Python写一个快排算法"}],max_tokens=1024)print(response.choices[0].message.content)

七、常见问题排查：“别急，我来救”

Q1: 容器启动后立刻退出？

先查日志：docker logs kimi-k25-0203。常见原因是模型文件不完整或显存不足。确保模型已完整下载，或者尝试降低 --gpu-memory-utilization 的值（比如调成 0.85）。

Q2: CUDA out of memory？

显存爆了！试试减小 --max-model-len（比如改为 32768）或降低 --gpu-memory-utilization 值。另外确认没有其他程序占用 GPU。

Q3: 端口被占用？

用 lsof -i:8008 查看是谁在用 8008 端口，杀掉它或者换个端口。只需修改 -p 参数（比如 -p 8009:8008）。

Q4: 加载模型很慢？

正常现象，大模型首次加载需要几分钟到十几分钟。确保模型文件在 SSD/NVMe 上，以及 SAFETENSORS_FAST_GPU=1 已设置。耐心等待即可。

Q5: 如何更新模型或镜像？

停止容器后重新拉取即可。Docker Run 方式用：docker stop kimi-k25-0203 && docker rm kimi-k25-0203，然后重新拉取镜像并运行。Docker Compose 方式更简单：docker compose pull && docker compose up -d。