微信扫码
添加专属顾问
我要投稿
让你轻松部署大模型的Docker框架Xinference,性能强大且易于使用。 核心内容: 1. Xinference框架介绍及适用场景 2. 部署Xinference前的准备工作 3. 获取官方镜像和构建自定义镜像的方法
Xinference 使用 GPU 加速推理,该镜像需要在有 GPU 显卡并且安装
CUDA 的机器上运行。
保证 CUDA 在机器上正确安装。可以使用 nvidia-smi
检查是否正确运行。
镜像中的 CUDA 版本为 12.4
。为了不出现预期之外的问题,请将宿主机的 CUDA 版本和 NVIDIA Driver 版本分别升级到 12.4
和 550
以上。
当前,可以通过两个渠道拉取 Xinference 的官方镜像。1. 在 Dockerhub 的 xprobe/xinference
仓库里。2. Dockerhub 中的镜像会同步上传一份到阿里云公共镜像仓库中,供访问 Dockerhub 有困难的用户拉取。拉取命令:docker pull registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:<tag>
。目前可用的标签包括:
nightly-main
: 这个镜像会每天从 GitHub main 分支更新制作,不保证稳定可靠。
v<release version>
: 这个镜像会在 Xinference 每次发布的时候制作,通常可以认为是稳定可靠的。
latest
: 这个镜像会在 Xinference 发布时指向最新的发布版本
对于 CPU 版本,增加 -cpu
后缀,如 nightly-main-cpu
。
如果需要安装额外的依赖,可以参考 xinference/deploy/docker/Dockerfile(https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html) 。请确保使用 Dockerfile 制作镜像时在 Xinference 项目的根目录下。比如:
git clone https://github.com/xorbitsai/inference.gitcd inferencedocker build --progress=plain -t test -f xinference/deploy/docker/Dockerfile .
你可以使用如下方式在容器内启动 Xinference,同时将 9997 端口映射到宿主机的 9998 端口,并且指定日志级别为 DEBUG,也可以指定需要的环境变量。
docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0 --log-level debug
--gpus
必须指定,正如前文描述,镜像必须运行在有 GPU 的机器上,否则会出现错误。
-H 0.0.0.0
也是必须指定的,否则在容器外无法连接到 Xinference 服务。
可以指定多个 -e
选项赋值多个环境变量。
当然,也可以运行容器后,进入容器内手动拉起 Xinference。
默认情况下,镜像中不包含任何模型文件,使用过程中会在容器内下载模型。如果需要使用已经下载好的模型,需要将宿主机的目录挂载到容器内。这种情况下,需要在运行容器时指定本地卷,并且为 Xinference 配置环境变量。
docker run -v </on/your/host>:</on/the/container> -e XINFERENCE_HOME=</on/the/container> -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0
上述命令的原理是将主机上指定的目录挂载到容器中,并设置 XINFERENCE_HOME
环境变量指向容器内的该目录。这样,所有下载的模型文件将存储在您在主机上指定的目录中。您无需担心在 Docker 容器停止时丢失这些文件,下次运行容器时,您可以直接使用现有的模型,无需重复下载。
如果你在宿主机使用的默认路径下载的模型,由于 xinference cache 目录是用的软链的方式存储模型,需要将原文件所在的目录也挂载到容器内。例如你使用 huggingface 和 modelscope 作为模型仓库,那么需要将这两个对应的目录挂载到容器内,一般对应的 cache 目录分别在 <home_path>/.cache/huggingface 和 <home_path>/.cache/modelscope,使用的命令如下:
docker run\-v</your/home/path>/.xinference:/root/.xinference\-v</your/home/path>/.cache/huggingface:/root/.cache/huggingface\-v</your/home/path>/.cache/modelscope:/root/.cache/modelscope\-p9997:9997\--gpusall\xprobe/xinference:v<your_version>\xinference-local-H0.0.0.0
开始部署:
mkdir /data/xinference & cd /data/xinferencedocker run -d --privileged --gpus all --restart always \ -v /data/xinference/.xinference:/root/.xinference \ -v /data/xinference/.cache/huggingface:/root/.cache/huggingface \ -v /data/xinference/.cache/modelscope:/root/.cache/modelscope \ -p 9997:9997 \ xprobe/xinference:v1.5.0 \ xinference-local -H 0.0.0.0
到此Xinference部署成功,用http://ip:9997即可访问。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-08
n8n vs Dify:工作流自动化与 AI 应用的终极对比
2025-05-08
n8n、Dify、Coze 深度测评:从 0 到 1 选对 AI 自动化平台,避开 99% 的坑
2025-05-08
错过 MCP = 错过 AI 应用时代?关于MCP你应该知道的十件事
2025-05-07
通义灵码编程智能体,正式上线!
2025-05-07
英伟达发布Llama-Nemotron系列推理模型、Zero to One: 详解AI Agent设计模式
2025-05-06
WC!一键微信聊天记录MCP!老板监工神器!
2025-05-06
OpenAI 深夜官宣大调整!奥特曼全员信:放弃营利转型,开源强大模型
2025-05-01
DeepSeek-Prover-V2-671B模型和大白话论文解读(AI版)
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-12-26
2024-08-13
2025-04-30
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-21
2025-04-19
2025-04-17