免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

vLLM× 魔搭社区,一文学会 Windows 本地部署大模型

发布日期:2025-11-16 18:03:24 浏览次数: 1538
作者:天欣实验室

微信搜一搜,关注“天欣实验室”

推荐语

想在Windows上轻松部署大模型?vLLM+WSL2方案帮你搞定!

核心内容:
1. vLLM框架在Windows系统下的特殊部署方案
2. WSL2环境配置的详细步骤与避坑指南
3. 从安装到运行的完整操作流程演示

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

之前的一篇文章我们介绍了如何在Windows上通过Ollama和魔搭社区快速部署本地的大模型:

Ollama × 魔搭社区:超简单的大模型本地部署方案


我看到有些小伙伴在评论区留言想要学习一下vLLM框架在windows上本地部署大模型的方法。


其实vLLM框架本身是不支持Windows系统的,但是我们可以把vLLM部署在WSL2中。这里科普一下什么是WSL,WSL它其实就像是一个运行在windows中的linux系统。我们无法在原生的Windows系统中运行vLLM,所以只能把它放到WSL中去进行部署,而WSL 2则是WSL的最新版本。


小天建议大家尽量确保自己电脑的系统版本不要太旧,最好是比较新的win10或者win11系统,官方对于版本的要求如下。


大家如果对自己的版本号有疑惑则可以点击快捷键“win+r”,然后输入‘winver’后回车即可看到自己系统的版本号。


下面的教程中的操作都是在我这台搭配了3060显卡的win11电脑中进行的,因为每个人的系统版本和电脑环境都有很大的差异,所以下面的任何一步如果有问题你可以在文末向我咨询。


在整个教程中,最容易出错的就是WSL2的安装了,如果你之前已经正确安装过了,那么你通过vLLM本地部署模型的任务就已经完成了百分之五十。


在后期的win10以及win11系统中,wsl命令已经系统自带了,所以我们只需要下载对应的Linux发行版然后安装即可。


微软官网下载地址:https://learn.microsoft.com/zh-cn/windows/wsl/install-manual?source=recommendations#step-4---download-the-linux-kernel-update-package


下载好后,先不要急着安装,在控制面板中找到程序下的启用或关闭Windows功能的选项。


然后确保下面的服务功能是开启的状态,首先要开启的是适用于Linux的Windows子系统这个选项。


然后要开启的是“虚拟机平台 Virtual Machine Platform”功能 ,这里要注意的是,这里的显示可能只是中文的“虚拟机平台”或者如下图意义的纯英文的Virtual Machine Platform:


开启之后需要重启电脑,然后找到刚刚下载好的Linux发行版的文件,这里下载的是24.04版本的Ubuntu。大家可以根据自己的需求来选择。


然后我们直接双击这个文件,即可完成安装。


如果你发现双击文件没有反应,则可以重启一下试试,或者打开Hyper-V这个Windows功能。


在安装的过程中,系统会提示你创建用户和密码,这个根据自己的情况来填写即可,比如我这里的用户名就是'天欣实验室'的缩写。


配置好用户密码后会自动的进入到你安装的系统之中。后续你可以输入'wsl -l -v'来查看已经安装的Linux版本。


然后使用命令'wsl -d 系统名'的方式进入到对应的Linux系统中,就像下面这样。


进入之后我们运行下面的命令来更换后续安装软件的地址为国内地址,这样更加快速且无需配置网络(命令要一条一条输入)。

sudo sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.listsudo sed -i 's/security.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.listsudo apt update

因为wsl会和windows主机共用一个显卡驱动,所以你可以在wsl或者cmd窗口中输入命令:'nvidia-smi',如果有类似下面的输出,则代表你已经有了显卡驱动。


如果没有则可以到英伟达的官网下载最新的驱动,地址如下:

https://www.nvidia.cn/software/nvidia-app/


然后再一条一条的输入以下命令,你就可以成功安装vllm了,这里的命令的作用我通过注释的方式写出来了,如果哪一步有问题可以在评论区留言或者直接向我咨询。

# 1. 安装venv支持包和pipsudo apt install -y python3-pipsudo apt install -y python3.12-venv# 2. 创建虚拟环境python3 -m venv ~/vllm-venv# 3. 激活虚拟环境source ~/vllm-venv/bin/activate# 4. 安装uvpip install uv -i https://mirrors.aliyun.com/pypi/simple/# 5. 设置下载超时export UV_HTTP_TIMEOUT=360# 6. 使用uv安装vllm和魔搭社区库uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/

(因为ubuntu24版本自带了python3.12,所以这里无需下载python了)


因为wsl的文件也是放在windows系统中的,所以我们可以直接对wsl中的linux系统做文件操作,你可以在文件资源管理器中输入'\\wsl$\' 查看所有发行版本的文件夹。


然后你需要在魔搭社区找到你想要下载的模型,比如我这里选择的是Qwen3-VL-8B-Instruct-AWQ-4bit模型,在对应的模型主页复制ID。


关于魔搭社区的介绍和模型名称的理解,大家可以看我之前的一篇文章:

Ollama × 魔搭社区:超简单的大模型本地部署方案


然后在你对应Linux版本的 '/home/用户名' 文件夹下(这里的用户名是你上面安装linux系统时候创建的用户名),新建一个名字为down.py的python脚本,脚本很简单,只有俩行代码,这个脚本的作用便是下载魔搭社区中你所指定的模型。

from modelscope import snapshot_downloadsnapshot_download(    '需要替换的模型ID',     cache_dir="./model")


然后再wsl中,输入命令'cd /home/用户名' 转跳到对应的目录当中,然后输入'chmod a+x down.py'确保其运行权限正确,随后使用'python down.py'的命令来启动模型下载任务(注意要在上面步骤中激活的虚拟环境中运行)。


模型下载好之后,同样在'/home/用户名' 文件夹下新建一个名称为'run.sh'的脚本来作为vllm的启动脚本,然后同样使用'chmod a+x run.sh'确保权限正确,脚本的示例代码如下:

vllm serve /home/txsys/model/cpatonn-mirror/Qwen3-VL-4B-Instruct-AWQ-4bit \  --served-model-name Qwen3-VL-4B \  --max-model-len 8192 \  --max-num-seqs 1 \  --trust-remote-code \  --port 6006


其中vllm serve后面跟着的是你模型的下载路径,其余的启动参数还有很多,你可以根据自己的电脑配置和模型参数让AI来帮你生成即可,这里简单说一下上面列出来的参数含义:

served-model-name:模型名称

max-model-len:模型最大上下文tokens

max-num-seqs:最大并发

trust-remote-code:允许模型自己执行代码

port:服务的启动端口


我们直接在对应目录中输入'./run.sh'即可通过vllm启动大模型了,出现下面的字样则代表启动成功。


这里多说一嘴,如果你的vllm安装好了,模型也下载好了,但是通过命令启动不起来,这大概率是你vllm启动参数的问题,你可以让AI帮你调整修改一下。


我们下次开启wsl后,再使用vllm运行大模型的步骤就很清晰了,首先进入到虚拟开发环境,然后切换到对应目录,最后运行run脚本即可,具体命令如下图:


成功运行vllm服务后,我们就剩下了最后一步:通过接口调用AI,首先需要在wsl下的linux系统中输入:'ip -a' 来查看linux系统的内网IP:


因为运行脚本中的端口设置为了6006,所以我们可以通过下面的接口调用AI,具体的调用代码大家可以使用AI来写:


如果你成功输出了AI的回复,那就说明vllm的部署没有问题,到此你就成功完成了大模型的本地部署!


最后如果大家有问题,可以评论区留言或者向我咨询哦~



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询