我要投稿

vLLM× 魔搭社区，一文学会 Windows 本地部署大模型

发布日期：2025-11-16 18:03:24 浏览次数： 1538

作者：天欣实验室

微信搜一搜，关注“天欣实验室”

之前的一篇文章我们介绍了如何在Windows上通过Ollama和魔搭社区快速部署本地的大模型：

Ollama × 魔搭社区：超简单的大模型本地部署方案

我看到有些小伙伴在评论区留言想要学习一下vLLM框架在windows上本地部署大模型的方法。

其实vLLM框架本身是不支持Windows系统的，但是我们可以把vLLM部署在WSL2中。这里科普一下什么是WSL，WSL它其实就像是一个运行在windows中的linux系统。我们无法在原生的Windows系统中运行vLLM，所以只能把它放到WSL中去进行部署，而WSL 2则是WSL的最新版本。

小天建议大家尽量确保自己电脑的系统版本不要太旧，最好是比较新的win10或者win11系统，官方对于版本的要求如下。

大家如果对自己的版本号有疑惑则可以点击快捷键“win+r”，然后输入‘winver’后回车即可看到自己系统的版本号。

下面的教程中的操作都是在我这台搭配了3060显卡的win11电脑中进行的，因为每个人的系统版本和电脑环境都有很大的差异，所以下面的任何一步如果有问题你可以在文末向我咨询。

在整个教程中，最容易出错的就是WSL2的安装了，如果你之前已经正确安装过了，那么你通过vLLM本地部署模型的任务就已经完成了百分之五十。

在后期的win10以及win11系统中，wsl命令已经系统自带了，所以我们只需要下载对应的Linux发行版然后安装即可。

微软官网下载地址：https://learn.microsoft.com/zh-cn/windows/wsl/install-manual?source=recommendations#step-4---download-the-linux-kernel-update-package

下载好后，先不要急着安装，在控制面板中找到程序下的启用或关闭Windows功能的选项。

然后确保下面的服务功能是开启的状态，首先要开启的是适用于Linux的Windows子系统这个选项。

然后要开启的是“虚拟机平台 Virtual Machine Platform”功能，这里要注意的是，这里的显示可能只是中文的“虚拟机平台”或者如下图意义的纯英文的Virtual Machine Platform：

开启之后需要重启电脑，然后找到刚刚下载好的Linux发行版的文件，这里下载的是24.04版本的Ubuntu。大家可以根据自己的需求来选择。

然后我们直接双击这个文件，即可完成安装。

如果你发现双击文件没有反应，则可以重启一下试试，或者打开Hyper-V这个Windows功能。

在安装的过程中，系统会提示你创建用户和密码，这个根据自己的情况来填写即可，比如我这里的用户名就是'天欣实验室'的缩写。

配置好用户密码后会自动的进入到你安装的系统之中。后续你可以输入'wsl -l -v'来查看已经安装的Linux版本。

然后使用命令'wsl -d 系统名'的方式进入到对应的Linux系统中，就像下面这样。

进入之后我们运行下面的命令来更换后续安装软件的地址为国内地址，这样更加快速且无需配置网络（命令要一条一条输入）。

sudo sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.listsudo sed -i 's/security.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.listsudo apt update

因为wsl会和windows主机共用一个显卡驱动，所以你可以在wsl或者cmd窗口中输入命令:'nvidia-smi',如果有类似下面的输出，则代表你已经有了显卡驱动。

如果没有则可以到英伟达的官网下载最新的驱动，地址如下：

https://www.nvidia.cn/software/nvidia-app/

然后再一条一条的输入以下命令，你就可以成功安装vllm了，这里的命令的作用我通过注释的方式写出来了，如果哪一步有问题可以在评论区留言或者直接向我咨询。

# 1. 安装venv支持包和pipsudo apt install -y python3-pipsudo apt install -y python3.12-venv# 2. 创建虚拟环境python3 -m venv ~/vllm-venv# 3. 激活虚拟环境source ~/vllm-venv/bin/activate# 4. 安装uvpip install uv -i https://mirrors.aliyun.com/pypi/simple/# 5. 设置下载超时export UV_HTTP_TIMEOUT=360# 6. 使用uv安装vllm和魔搭社区库uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/

（因为ubuntu24版本自带了python3.12,所以这里无需下载python了）

因为wsl的文件也是放在windows系统中的，所以我们可以直接对wsl中的linux系统做文件操作，你可以在文件资源管理器中输入'\\wsl$\' 查看所有发行版本的文件夹。

然后你需要在魔搭社区找到你想要下载的模型，比如我这里选择的是Qwen3-VL-8B-Instruct-AWQ-4bit模型，在对应的模型主页复制ID。

关于魔搭社区的介绍和模型名称的理解，大家可以看我之前的一篇文章：

Ollama × 魔搭社区：超简单的大模型本地部署方案

然后在你对应Linux版本的 '/home/用户名' 文件夹下(这里的用户名是你上面安装linux系统时候创建的用户名)，新建一个名字为down.py的python脚本，脚本很简单，只有俩行代码，这个脚本的作用便是下载魔搭社区中你所指定的模型。

from modelscope import snapshot_downloadsnapshot_download(    '需要替换的模型ID',     cache_dir="./model")

然后再wsl中，输入命令'cd /home/用户名' 转跳到对应的目录当中，然后输入'chmod a+x down.py'确保其运行权限正确，随后使用'python down.py'的命令来启动模型下载任务（注意要在上面步骤中激活的虚拟环境中运行）。

模型下载好之后，同样在'/home/用户名' 文件夹下新建一个名称为'run.sh'的脚本来作为vllm的启动脚本，然后同样使用'chmod a+x run.sh'确保权限正确，脚本的示例代码如下：

vllm serve /home/txsys/model/cpatonn-mirror/Qwen3-VL-4B-Instruct-AWQ-4bit \  --served-model-name Qwen3-VL-4B \  --max-model-len 8192 \  --max-num-seqs 1 \  --trust-remote-code \  --port 6006

其中vllm serve后面跟着的是你模型的下载路径，其余的启动参数还有很多，你可以根据自己的电脑配置和模型参数让AI来帮你生成即可，这里简单说一下上面列出来的参数含义：