微信扫码
添加专属顾问
我要投稿
想在家部署Kimi-K2.5模型?这篇教程手把手教你用Docker轻松搞定8卡RTX 6000 PRO的私有化部署!核心内容: 1. 环境准备:安装NVIDIA驱动、Docker和NVIDIA Container Toolkit 2. 两种部署方式:单命令Docker运行和Docker Compose管理 3. 模型下载与验证测试完整流程
Kimi-K2.5
RTX 6000 PRO x 8 私有化部署教程
「从零开始,手把手教你把Kimi请回家」
Ubuntu + Docker + vLLM | 包含 Docker 单命令 & Docker Compose 两种方式
|
系统 Ubuntu 22.04+ |
显卡 RTX 6000 PRO x 8 |
显存 单卡 96GB / 总 768GB |
最近 Kimi-K2.5 模型火了,性能强悍,开源免费。很多朋友想把它部署到自己的服务器上,既保护数据隐私,又能随意折腾。但一看部署文档——一堆命令行参数,头大了。
别急!这篇教程就是你的“救命稻草”。我们会用最通俗的语言,手把手带你完成以下操作:
•环境准备:安装 Docker、NVIDIA 驱动、NVIDIA Container Toolkit
•下载模型:把 Kimi-K2.5 模型文件下载到服务器
•方式一:用一条 docker run 命令直接起飞
•方式二:用 Docker Compose 优雅管理,适合长期运维
•验证测试:确认服务起来了,而且好用
|
适合谁读? 有一台装了 8 张 RTX 6000 PRO 显卡的 Ubuntu 服务器,想拿它跑 Kimi-K2.5 的同学。哪怕你是“命令行新手”,跟着做就行! |
在跑模型之前,我们得先把“地基”打好。主要包括三件事:NVIDIA 驱动、Docker 和 NVIDIA Container Toolkit。
先看看你的显卡驱动装好了没有,运行以下命令:
nvidia-smi
如果能看到 8 张 RTX 6000 PRO 整整齐齐地排列,恭喜,说明驱动没问题。如果报错,请先安装 NVIDIA 驱动(推荐 550+):
sudo apt updatesudo apt install -y nvidia-driver-550sudo reboot # 重启后再次运行 nvidia-smi 确
如果还没装 Docker,执行以下命令(官方推荐方式):
# 卸载旧版本(如果有的话)sudo apt remove docker docker-engine docker.io containerd runc# 安装依赖sudo apt updatesudo apt install -y ca-certificates curl gnupg lsb-release# 添加 Docker 官方 GPG keysudo install -m 0755 -d /etc/apt/keyringscurl -fsSL https://download.docker.com/linux/ubuntu/gpg \| sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg# 添加仓库echo "deb [arch=$(dpkg --print-architecture) \signed-by=/etc/apt/keyrings/docker.gpg] \https://download.docker.com/linux/ubuntu \$(lsb_release -cs) stable" \| sudo tee /etc/apt/sources.list.d/docker.list > /dev/null# 安装 Dockersudo apt updatesudo apt install -y docker-ce docker-ce-cli \containerd.io docker-compose-plugin
|
小贴士 安装完成后运行 docker --version 确认版本。建议把当前用户加入 docker 组,这样不用每次都加 sudo:sudo usermod -aG docker $USER,然后重新登录。 |
这个工具让 Docker 容器能“看到”你的 GPU。没有它,容器里的模型就是个“瞎子”,有显卡也用不上。
# 添加仓库distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpgcurl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list \| sed 's#debhttps://#deb[signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list# 安装sudo apt updatesudo apt install -y nvidia-container-toolkit# 配置 Docker 运行时sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker
验证一下是否成功:
docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi
如果能看到熟悉的 nvidia-smi 输出,恭喜你,GPU 已经在 Docker 里“上线”了!
Kimi-K2.5 是个“大家伙”,模型文件体积不小。我们需要把它下载到服务器的 /data/Kimi-K2.5 目录下。
# 安装 huggingface_hubpip install -U huggingface_hub# 创建目录sudo mkdir -p /data/Kimi-K2.5# 下载模型(具体仓库名以官方为准)huggingface-cli download moonshotai/Kimi-K2.5 \--local-dir /data/Kimi-K2.5
pip install modelscopemodelscope download --model moonshotai/Kimi-K2.5 \--local_dir /data/Kimi-K2.5
|
⚠️ 注意 模型文件很大,下载可能需要较长时间。建议使用 screen 或 tmux 在后台运行,避免 SSH 断开导致下载中断。另外,确保 /data 分区有足够的磁盘空间(至少预留 500GB+)。 |
这是最简单粗暴的方式,一条命令搞定。适合快速测试和“先跑起来再说”的场景。
复制以下命令,粘贴到终端执行:
docker run -d \--runtime nvidia \--gpus all \--name kimi-k25-0203 \-e SAFETENSORS_FAST_GPU=1 \-e LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:\/usr/local/cuda/targets/x86_64-linux/lib \-v /data/Kimi-K2.5:/data/Kimi-K2.5 \-p 8008:8008 \--ipc=host \--restart unless-stopped \vllm/vllm-openai:cu130-nightly \--model /data/Kimi-K2.5 \--served-model-name kimi-k2.5 \--tensor-parallel-size 8 \--trust-remote-code \--tool-call-parser kimi_k2 \--reasoning-parser DeepSeek_r1 \--enable-auto-tool-choice \--gpu-memory-utilization 0.92 \--max-model-len 65536 \--max-num-batched-tokens 32000 \--max-num-seqs 8 \--disable-custom-all-reduce \--api-key mykey \--port 8008 \--host 0.0.0.0
别被这一堆参数吓到,我们来逐个解读:
参数 |
说人话解释 |
--runtime nvidia --gpus all |
告诉 Docker:“把所有 GPU 都拿出来用!” |
-d |
后台运行,不占用你的终端窗口 |
--name kimi-k25-0203 |
给容器取个名字,方便后续管理 |
-e SAFETENSORS_FAST_GPU=1 |
加速模型加载,让显卡直接读取模型文件 |
-v /data/Kimi-K2.5:... |
把主机的模型目录“挂载”到容器里 |
-p 8008:8008 |
端口映射,外部访问用 8008 端口 |
--ipc=host |
共享主机内存,多 GPU 通信必备 |
--restart unless-stopped |
容器崩了自动重启,省心! |
--tensor-parallel-size 8 |
用 8 张卡并行计算,每张卡分担一部分 |
--gpu-memory-utilization 0.92 |
用 92% 显存,留点余地防爆显存 |
--max-model-len 65536 |
最大支持 64K token 的上下文长度 |
--max-num-seqs 8 |
最多同时处理 8 个请求 |
--api-key 8712011+a |
API 密钥,请替换成你自己的密钥! |
--tool-call-parser kimi_k2 |
启用 Kimi 专用工具调用解析器 |
--reasoning-parser deepseek_r1 |
启用深度思考推理解析器 |
|
⚠️ 安全提醒 请务必修改 --api-key 为你自己的强密码!示例中的密钥仅用于演示,千万不要直接用于生产环境。 |
如果你打算长期运行这个服务,Docker Compose 是更好的选择。它用一个 YAML 文件记录所有配置,不用每次都输一大串命令,而且更容易管理和修改。
mkdir -p /opt/kimi-k25 && cd /opt/kimi-k25
创建文件 /opt/kimi-k25/docker-compose.yml,内容如下:
services:kimi-k25:image: vllm/vllm-openai:cu130-nightlycontainer_name: kimi-k25-0203runtime: nvidiaipc: hostrestart: unless-stoppedports:- "8008:8008"volumes:- /data/Kimi-K2.5:/data/Kimi-K2.5environment:- SAFETENSORS_FAST_GPU=1- LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:/usr/local/cuda/targets/x86_64-linux/lib- NVIDIA_VISIBLE_DEVICES=alldeploy:resources:reservations:devices:- driver: nvidiacount: allcapabilities: [gpu]command: >--model /data/Kimi-K2.5--served-model-name kimi-k2.5--tensor-parallel-size 8--trust-remote-code--tool-call-parser kimi_k2--reasoning-parser deepseek_r1--enable-auto-tool-choice--gpu-memory-utilization 0.92--max-model-len 65536--max-num-batched-tokens 32000--max-num-seqs 8--disable-custom-all-reduce--api-key mykey--port 8008--host 0.0.0.0
cd /opt/kimi-k25# 启动(后台运行)docker compose up -d# 查看日志(实时跟踪)docker compose logs -f# 停止服务docker compose down# 重启服务docker compose restart
对比项 |
Docker Run |
Docker Compose |
难度 |
⭐简单,一行命令 |
⭐⭐需写 YAML 文件 |
可维护性 |
⭐修改参数得重新输入 |
⭐⭐⭐改 YAML 就行 |
版本管理 |
⭐得查历史记录 |
⭐⭐⭐文件可 git 管理 |
多服务编排 |
⭐不支持 |
⭐⭐⭐原生支持 |
适合场景 |
快速测试、临时使用 |
长期运行、生产环境 |
简单总结:Docker Run 就像点外卖,方便快捷;Docker Compose 就像开餐厅,规范管理。看你的场景选择即可。
服务启动后,模型加载需要几分钟(这毕竟是个大模型)。先看看日志:
docker logs -f kimi-k25-0203
当你看到类似下面的输出时,说明服务已经准备就绪:
INFO: Uvicorn running on http://0.0.0.0:8008
试试发一个聊天请求:
curl http://localhost:8008/v1/chat/completions \-H 'Content-Type: application/json' \-H 'Authorization: Bearer mykey' \-d '{"model": "kimi-k2.5","messages": [{"role": "user", "content": "你好,介绍一下你自己"}],"max_tokens": 512}'
如果收到了 JSON 格式的回复,包含模型的自我介绍,恭喜你,部署成功!
curl http://localhost:8008/v1/models \-H 'Authorization: Bearer mykey'
应该能看到 kimi-k2.5 在模型列表中。
如果你喜欢 Python,可以用 OpenAI SDK 无缝对接:
pip install openaifrom openai import OpenAIclient = OpenAI(base_url="http://localhost:8008/v1",api_key="mykey")response = client.chat.completions.create(model="kimi-k2.5",messages=[{"role": "user", "content": "用Python写一个快排算法"}],max_tokens=1024)print(response.choices[0].message.content)
先查日志:docker logs kimi-k25-0203。常见原因是模型文件不完整或显存不足。确保模型已完整下载,或者尝试降低 --gpu-memory-utilization 的值(比如调成 0.85)。
显存爆了!试试减小 --max-model-len(比如改为 32768)或降低 --gpu-memory-utilization 值。另外确认没有其他程序占用 GPU。
用 lsof -i:8008 查看是谁在用 8008 端口,杀掉它或者换个端口。只需修改 -p 参数(比如 -p 8009:8008)。
正常现象,大模型首次加载需要几分钟到十几分钟。确保模型文件在 SSD/NVMe 上,以及 SAFETENSORS_FAST_GPU=1 已设置。耐心等待即可。
停止容器后重新拉取即可。Docker Run 方式用:docker stop kimi-k25-0203 && docker rm kimi-k25-0203,然后重新拉取镜像并运行。Docker Compose 方式更简单:docker compose pull && docker compose up -d。
运维必备的常用命令,建议收藏:
操作 |
命令 |
查看容器状态 |
docker ps |
查看实时日志 |
docker logs -f kimi-k25-0203 |
停止服务 |
docker stop kimi-k25-0203 |
启动服务 |
docker start kimi-k25-0203 |
重启服务 |
docker restart kimi-k25-0203 |
删除容器 |
docker rm -f kimi-k25-0203 |
查看 GPU 使用率 |
nvidia-smi |
实时监控 GPU |
watch -n 1 nvidia-smi |
查看容器资源占用 |
docker stats kimi-k25-0203 |
|
Step 1 安装 NVIDIA 驱动 → 让服务器“认识”显卡 Step 2 安装 Docker + NVIDIA Container Toolkit → 让容器“看到”GPU Step 3 下载 Kimi-K2.5 模型文件 → 把Kimi“请回家” Step 4 用 Docker Run 或 Compose 启动 vLLM 服务 → “起飞” Step 5 curl / Python 验证服务正常 → 大功告成! |
写在最后:私有化部署大模型其实没那么可怕,只要你有合适的硬件和一份靠谱的教程。希望这篇文章能帮到你,如果遇到问题,欢迎在评论区留言交流。
转发 + 收藏 = 对作者最大的鼓励!❤️
关注我,获取更多 AI 部署实战教程
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-27
OpenClaw 官方 53 个技能完整指南:功能详解 + 风险评估 + 安装建议
2026-02-27
OpenClaw:律师的下一个超级助理,还是一个危险的陷阱?
2026-02-27
OpenClaw 2026.2.26 发布:近100项更新!
2026-02-27
OpenClaw 二次开发完全指南
2026-02-26
OpenClaw 本地安装完全指南,并打通Telegram
2026-02-26
AI Agent系列|深入解析Function Calling、MCP和Skills的本质差异与最佳实践
2026-02-25
【本地部署实测】2万+开源手机智能辅助项目:电脑端一键搭建Open-AutoGLM,ADB+WiFi无线连接,让手机按你的意思全自动操作
2026-02-25
KimiClaw 看起来只是“套了个壳”,但这恰恰是它最值钱的地方
2026-01-27
2026-02-06
2026-01-30
2026-01-29
2026-01-12
2025-12-22
2026-01-27
2026-01-28
2025-12-10
2026-01-21
2026-02-27
2026-02-24
2026-02-11
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21