微信扫码
添加专属顾问
我要投稿
硬核实战:在国产OpenCloudOS 9上部署GLM-5大模型,16张H20显卡火力全开! 核心内容: 1. OpenCloudOS 9作为GLM-5最佳国产底座的性能优势 2. 16张NVIDIA H20显卡的完整部署流程详解 3. 从驱动安装到模型下载的实战操作指南
年前,智谱正式发布了万众瞩目的 GLM-5 。作为上市后的首个重磅核弹,GLM-5 带来了 745B MoE 架构和惊人的推理能力。但问题来了: 如此强悍的 745B 模型,如何在私有化环境中落地?
今天,我们不谈虚的。直接在国产操作系统 OpenCloudOS 9 上,用16张 NVIDIA H20-96GB ,来一次硬核的部署实战!
如果说 GLM-5 是软件上的“大脑”,那 OpenCloudOS 就是承载它的“神经中枢”。
面对 GLM-5 这种 MoE 架构,频繁的专家切换对内存调度和系统延迟提出了极高要求。OpenCloudOS 9 内核经过深度调优,在处理高并发 AI 负载时,抖动极低,是目前跑大模型最稳的国产底座之一。
OS : OpenCloudOS 9 (Kernel 6.6)
GPU : NVIDIA H20 (96GB*16)
Driver : NVIDIA Driver 590+ / CUDA 13.1
Model : GLM-5-745B-fp8 (量化版)
大于1TB的剩余磁盘空间
推荐使用 NVIDIA Driver 590 版本,目前 OpenCloudOS 9 的 EPOL 源上已集成对应 RPM 包,可通过以下指令执行安装(默认安装590版本),如需安装 580 版本,可在命令后加版本号:
dnf install nvidia-driver
因为需要用到容器,所以需先通过如下指令,安装 Nvidia Runtime:
# 添加nvidia runtime toolkitsudo yum-config-manager --add-repo https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.reposudo dnf install docker-ce nvidia-container-toolkit -ysudo systemctl start docker.servicesudo systemctl enable docker.service
首先下载魔搭,通过魔搭下载模型,如果 python 版本较旧(如使用的是 OC 8 版本(默认自带 python 3.6)),则需先安装 python 3.11。
pip3 install modelscopemodelscope download --model ZhipuAI/GLM-5-FP8 # 如使用OC 8版本,请先升级 python 版本至 3.11,且上面的pip3 命令变更为pip3.11。如使用OC 9版本,该步可跳过。dnf install python3.11 python3.11-pip -y
本次使用 vLLM 和 Ray 集群来运行 GLM-5。
说明:Ray 是分布式计算框架。当单机显存不足以加载超大模型,需多机多卡并行推理时,必须用它来统一调度集群资源。
具体执行方式如下:
# 使用专用的 vLLM 来运行,-v的模型映射路径,需根据您实际模型目录来写# 两台机器都需要启动集群,网卡 eth0 需根据您实际来设置docker run -itd --net=host --ipc=host --privileged \ --name=glm5 --gpus all --entrypoint /bin/bash \ -e GLOO_SOCKET_IFNAME=eth0 \ -e NCCL_SOCKET_IFNAME=eth0 \ -e MASTER_ADDR=192.168.32.6 \ -e NCCL_DEBUG=INFO \ -e NCCL_IB_DISABLE=1 \ -e NCCL_P2P_DISABLE=1 \ -e NCCL_SHM_DISABLE=0 \ -e NCCL_NET_GDR_LEVEL=0 \ -v /data/models/:/data/ vllm/vllm-openai:glm5
# 进入容器启动 Ray 集群主节点,假设主节点ip为 192.168.32.6ray start --head --port=6379 --num-gpus=8# 进入另外一台机器的容器启动从节点ray start --address='192.168.32.6:6379' --num-gpus=8# 查看集群状态,应该有16张GPUray status
python3 -m vllm.entrypoints.openai.api_server \ --model /data/GLM-5-FP8 \ --tensor-parallel-size 16 \ --pipeline-parallel-size 1 \ --distributed-executor-backend ray \ --host 0.0.0.0 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm5 \ --trust-remote-code \ --port 8000
待服务启动后,通过 curl 命令发送请求来进行验证。
备注:如使用普通tcp,加之模型较大,所以延迟会较高。
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "glm5", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ] }'为方便后续使用,可以安装 webUI:
docker run -d \ --name open-webui \ -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -e OPENAI_API_BASE_URL=http://host.docker.internal:8000/v1 \ -e OPENAI_API_KEY=sk-xxx \ -v open-webui-data:/app/backend/data \ ghcr.nju.edu.cn/open-webui/open-webui:main
我们用一个典型的编程场景和问题,来测试下 GLM-5 的编程能力:
作为对比,我们接着用 Claude-opus 4-5,来完成同样的一个编程指令:
可以看到,Claude 还是存在明显的语法错误,而 GLM-5 代码简洁、思路清晰、且没有语法错误。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-25
谈2026Q1的 AI Coding质量 与 Review
2026-02-25
未来的模型会拥有意识 | Anthropic CEO最新对话实录
2026-02-25
一句话,让你的龙虾接入 Agent 互联网
2026-02-25
实测 Ollama 新 Launch:一条命令运行 Claude Code、Codex 与 OpenCode(无需配置)
2026-02-25
Claude Code 龙虾化!上线远程控制:手机随时接管本地终端,开发环境无缝同步
2026-02-25
引爆SaaS万亿美元抛售之后,Anthropic加码Cowork,要改变所有白领
2026-02-24
当软件不值钱了以后,最稀缺的资源是什么?
2026-02-24
OpenAI Codex负责人:我们熟悉的编程方式正在终结 | Jinqiu Select
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2026-02-03
2025-12-21
2026-01-09
2026-01-09
2026-01-27
2026-02-24
2026-02-24
2026-02-20
2026-02-14
2026-02-13
2026-02-12
2026-02-12
2026-02-11