我要投稿

全模态大模型部署，vLLM-Omni 来了，100%开源

发布日期：2025-12-26 09:42:27 浏览次数： 1975

作者：Ai学习的老章

微信搜一搜，关注“Ai学习的老章”

vLLM 是我们公众号的常客了，几乎所有关于大模型本地部署的文章都是用 vLLM 启动的

安全审核大模型，本地部署，实测
腾讯混元 OCR 大模型，本地部署，实测
大模型本地部署相关文章，我做了一个网站

但是部署多模态，尤其是最近 N 多全模态大模型，vLLM 就有点捉襟见肘了

vllm-project 团队开源了一个新框架——vLLM-Omni

vLLM-Omni

什么是 vLLM-Omni？最初，vLLM 是为大规模语言模型（LLM）的文本生成任务量身定制的。
然而，随着需求演进，vLLM-Omni 将其能力扩展到了更广阔的领域：
• 全模态支持：它不仅能处理文本，还支持图像、视频和音频数据。 • 非自回归架构：除了支持传统的自回归模型，它还扩展支持了DiT和其他并行生成模型。 • 异构输出**：能够实现从传统文本生成到各种多模态输出的跨越。
核心技术优势：为什么它如此之快？ • 高效的缓存管理：继承并优化了 vLLM 的 KV 缓存管理机制。 • 流水线并行执行：通过阶段执行的重叠（overlapping）来实现高吞吐量性能。 • 灵活的资源调度：基于 OmniConnector 的全解耦架构，支持跨阶段的动态资源分配。 **高性能 (Performance)**：利用流水线阶段执行来重叠计算，确保高吞吐量性能。当一个阶段在处理时，其他阶段不会闲置。

易用性与生态兼容性对于开发者而言，vLLM-Omni 极易上手且高度兼容，如果你会用 vLLM，你就会用 vLLM-Omni： • 无缝集成：支持 Hugging Face 上最热门的开源模型，例如 Qwen-Omni 和 Qwen-Image。 • 标准接口：提供与 OpenAI 兼容的 API 服务器，极大降低了集成成本。 • 分布式推理：支持张量并行、流水线并行、数据并行以及专家并行（EP）。 • 开发语言：该项目主要由 Python (98.5%) 编写，方便社区进行二次开发和贡献。

vLLM-Omni 是首批支持全模态模型服务的开源框架之一，它将 vLLM 卓越的性能扩展到了多模态和非自回归推理的世界。

目前支持的模型

N 卡上阿里 Qwen 能打的多模态模型及户全都支持，华为 NPU 也支持，只是可用模型较少

安装 vllm-omni

推荐使用 uv 进行环境管理

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm==0.12.0 --torch-backend=auto
uv pip install vllm-omni

内网部署的话，Docker 是必须的

镜像下载：https://hub.docker.com/r/vllm/vllm-omni

docker run --runtime nvidia --gpus 2 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=$HF_TOKEN" \
    -p 8091:8091 \
    --ipc=host \
    vllm/vllm-omni:v0.11.0rc1 \
    --model Qwen/Qwen3-Omni-30B-A3B-Instruct --port 8091

使用方法：离线推理

以下是使用 Tongyi-MAI/Z-Image-Turbo 模型进行文生图的简单示例：

from vllm_omni.entrypoints.omni import Omni 

if __name__ == "__main__": 
    # 初始化 Omni 模型
    omni = Omni(model="Tongyi-MAI/Z-Image-Turbo") 
    
    prompt = "a cup of coffee on the table" 
    
    # 生成图像
    images = omni.generate(prompt) 
    
    # 保存结果
    images[0].save("coffee.png")

也可以直接命令行

python text_to_image.py \
  --model Tongyi-MAI/Z-Image-Turbo \
  --prompt "a cup of coffee on the table" \
  --seed 42 \
  --cfg_scale 4.0 \
  --num_images_per_prompt 1 \
  --num_inference_steps 50 \
  --height 1024 \
  --width 1024 \
  --output outputs/coffee.png

使用方法：在线推理

启动脚本：

vllm serve Qwen/Qwen-Image --omni --port 8091

Method 1: curl 调用 API

curl -s http://localhost:8091/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "A beautiful landscape painting"}
    ],
    "extra_body": {
      "height": 1024,
      "width": 1024,
      "num_inference_steps": 50,
      "true_cfg_scale": 4.0,
      "seed": 42
    }
  }' | jq -r '.choices[0].message.content[0].image_url.url' | cut -d',' -f2 | base64 -d > output.png

Method 2: Python Client 调用

python openai_chat_client.py --prompt "A beautiful landscape painting" --output output.png

Method 3: 使用 Gradio Demo¶

官方还提供了 Gradio 实现的前端

#https://github.com/vllm-project/vllm-omni
python gradio_demo.py

然后浏览器访问 http://localhost:7860

完成脚本：https://github.com/vllm-project/vllm-omni/blob/main/examples/online_serving/text_to_image/gradio_demo.py

最后，官方还提供了一系列实用教程，涉及文生图、图生图、全模态等等：

https://docs.vllm.ai/projects/vllm-omni/en/latest/user_guide/examples/online_serving/text_to_image/#example-materials

在最后，这个项目的核心开发者都是中国面孔

后续我要用 4090 实际运行 Z-Image-Turbo 并进行实测，教程后续更新

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-10

对话离哲：企业AI告别「对话玩具」，多模态记忆是分水岭

2026-02-10

Qwen-Image-2.0: 字字清晰，张张细腻

2026-02-03

多模态文档智能解析最新开源进展：GLM-OCR方法概述

2026-02-02

月之暗面Kimi正式发布官方编程工具：Kimi Code

2026-01-30

用AI做深度用户访谈，获蓝驰、高瓴、王慧文投资

2026-01-29

DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档

2026-01-28

LingBot-Depth 正式开源：让机器人“看清”物理世界

2026-01-28

一文带你读懂DeepSeek-OCR 2的细节！附实测！

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

2025-12-06

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

2025-12-07

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

Gemini 3 多模态Prompt：手相宗师 - 玄师

2025-11-19

GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

2025-12-11

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

2026-01-27

大家都在问

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean