微信扫码
添加专属顾问
我要投稿
Qwen3-Omni突破多模态界限,一个模型同时精通文字、图片、语音和视频处理,36项测试中32项领先开源模型!核心内容: 1. Thinker-Talker创新架构实现全模态不降智 2. 超低延迟流式交互技术(音频211ms/视频507ms) 3. 36项基准测试中32项开源最佳的性能验证
一个模型能够同时处理文字、图片、语音和视频了!
新一代原生全模态大模型 Qwen3-Omni 正式发布。在 36 项音视频基准测试中,取得了 32 项开源模型最佳效果,22 项达到 SOTA 水平。
在音视频能力强劲的同时,文本与图像的单模态性能保持稳定,真正实现“全模态不降智”。
现阶段,Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开放,你也可以通过 Qwen Chat Qwen3-Omni-Flash 模型直接体验(点击对话框右下角“使用语音和视频聊天”)。
它是如何做到“全能”且“不偏科”的?关键在于其架构设计。
Thinker-Talker 架构
分工协同,兼顾效率与能力
为实现“全模态不降智”的目标,Qwen3-Omni 采用了创新的 Thinker-Talker 架构。将模型能力明确分工,在保障语义理解深度的同时,实现超低延迟的流式语音输出,一举解决“能力不降智”与“响应速度慢”两大难题。
Thinker(思考者):基于混合专家(MoE)架构,负责文本语义的理解与生成,是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时,核心的文本与图像能力不受干扰,真正实现“全模态不降智”。
Talker(表达者):同样基于 MoE 架构,专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征,确保语音输出与文本意图高度一致,避免了传统端到端模型在语音生成过程中对语义理解的损耗。
此外,模型的音频编码器采用基于 2000 万小时数据训练的 AuT 模型,为音视频理解提供了强大的通用表征基础。
为实现毫秒级实时交互,Talker 采用了创新的多码本自回归方案,在每一步解码中,MTP(Multi-Token Prediction)模块会预测当前音频帧的残差码本。随后,Code2Wav 模块将这些码本即时合成为波形,实现逐帧流式音频生成。
Qwen3-Omni 完整架构图
如上图所示,Qwen3-Omni 通过 Vision Encoder 和 AuT 音频编码器将图文音视频输入编码为隐藏状态,由 MoE Thinker 负责文本生成与语义理解,再由 MoE Talker 结合 MTP 模块,实现超低延迟的流式语音生成。得益于这一协同设计,Qwen3-Omni 纯模型端到端的音频对话延迟可低至 211ms,视频对话延迟可低至 507ms,交互体验如真人对话般自然流畅。
此外,模型支持长达 30 分钟的音频内容理解,适用于会议记录、课程转录等长语音场景。
性能验证
全能表现,数据说话
在多项权威评测中,Qwen3-Omni 的“全能且不偏科”得到了充分验证:
音视频能力强劲:在 36 项音视频基准测试中,32 项取得开源模型最佳效果,22项达到 SOTA 水平。性能表现超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。
文本能力稳定:在 MMLU-Redux、AIME25 等文本评测中,Qwen3-Omni-30B-A3B 得分分别为 85.9 和 64.0,与参数量更大的单模态模型 Qwen3-235B-A22B(89.2, 24.7)表现接近。
图像能力扎实:在 MMMU 和 CountBench 图像理解评测中得分 69.1 和 90.0,与专用视觉模型 Qwen2.5-VL-72B 表现相当。
Omni-30B-A3B 性能图
在文本、音频、语音生成、图像和视频上表现出色
119种语言、50+种音色,开箱即用
这些能力,最终都要服务于真实世界的复杂场景。为此,Qwen3-Omni 在语言覆盖、内容长度与声音表现上做了深度优化:支持 119 种文本语言输入、19 种语音输入语言和 10 种语音输出语言,满足全球化应用需求;支持长达 30 分钟的音频内容理解,完整处理会议、课程等长语音场景;语音合成提供 17 种自然音色(Flash版)或 3 种基础音色(开源版),让交互更具个性与温度。
语种和方言(19种)
阿拉伯语、粤语、中文、荷兰语、英语、法语、德语、印尼语、意大利语、日语、韩语、马来语、葡萄牙语、俄语、西班牙语、泰语、土耳其语、乌尔都语、越南语。
语音生成(10种)
支持的语种:中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语
支持的方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话
语音翻译
xx2En (任意语言 → 英文)
xx2Zh (任意语言 → 中文)
En2xx (英文 → 任意语言)
Zh2xx (中文 → 任意语言)
其中,xx(任意语言)包含的语言有:中文、英语、韩语、日语、德语、法语、意大利语、西班牙语、葡萄牙语、印尼语、泰语、阿拉伯语、粤语、越南语等。
灵活易用
一行提示词,定制你的专属AI
Qwen3-Omni 不仅能力全面,更注重实际场景中的快速适配能力。
个性化行为定制:通过系统提示词(system prompt),用户可轻松调整模型的回复风格、语气或人设。无论是设定为“严谨专业的法律顾问”,还是“亲切活泼的健身教练”,只需一行指令,即可快速匹配不同业务需求。
工具调用(Function Call):支持与外部工具或 API 高效集成。开发者可让模型自动调用数据库、发送邮件、查询天气、操作软件等,构建自动化智能工作流,大幅提升效率。
轻量版模型支持:提供 Qwen3-Omni-Flash版本,在保持核心能力的同时,显著降低推理资源消耗,适合对成本和延迟敏感的应用场景。
Qwen3-Omni-Flash 性能图
为推动技术开放与社区共建,我们同步开源了 Qwen3-Omni-30B-A3B-Captioner 模型。
这是一个专注于生成详细、低幻觉音频描述的通用模型,能够为任意音频内容生成高质量的文本摘要或场景描述。该模型填补了开源社区在高质量音频 Caption 领域的空白,为音视频内容分析、无障碍服务、智能剪辑等场景提供了强大基础工具。
你可通过 Hugging Face 或 ModelScope 直接下载使用,并基于此构建更丰富的上层应用。未来,我们也将会持续推进多说话人语音识别(Multi-speaker ASR)、视频 OCR 与结构化信息提取、音视频主动学习机制、强化智能体与函数调用能力。我们期待和你一起探索 Qwen3-Omni 更多创新应用场景。
💻 GitHub开源地址
https://github.com/QwenLM/Qwen3-Omni
🤖 模型库
https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 在线Demo试玩
https://chat.qwen.ai/?models=qwen3-omni-flash
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-19
手把手教学:用n8n+RSS+飞书实现多平台热点自动抓取(含RSS源分享)
2025-09-17
多模态AI质检:身份核验场景实践
2025-09-06
多模态大模型Keye-VL-1.5发布!视频理解能力更强!
2025-09-03
Nano Banana 暴击 GPT-4o 绘图,谷歌赢麻了
2025-09-02
首个Nano-banana企业级多模态RAG教程,适合电商、游戏场景
2025-09-01
MiniMax音频依托MCP协议,打造多模态Tool新标杆!
2025-08-25
给AI装个眼睛——能说、能看、能分享屏幕
2025-08-18
AI 陪伴下半场,「桌宠」或是最好的载体
2025-09-03
2025-07-02
2025-09-01
2025-07-14
2025-07-08
2025-07-01
2025-07-13
2025-06-30
2025-09-19
2025-08-04
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05