我要投稿

阿里深夜开源Qwen2.5-Omni，7B参数完成看、听、说、写

发布日期：2025-03-28 06:25:02 浏览次数： 2583

作者：机器之心

微信搜一搜，关注“机器之心”

3 月 27 日凌晨，阿里通义千问团队发布 Qwen2.5-Omni。

这是 Qwen 系列中全新的旗舰级多模态大模型，专为全面的多模式感知设计，可以无缝处理包括文本、图像、音频和视频的各种输入，同时支持流式的文本生成和自然语音合成输出。

从此以后，你可以像打电话或进行视频通话一样与 Qwen 聊天！可以说是「语音聊天 + 视频聊天」都实现了。

体验地址：https://chat.qwen.ai/

更重要的是，团队人员将支持这一切的模型 Qwen2.5-Omni-7B 开源了，采用 Apache 2.0 许可证，并且发布了技术报告，分享所有细节！

现在，开发者和企业可免费下载商用Qwen2.5-Omni，手机等终端智能硬件也可轻松部署运行。

有网友表示，这才是真正的 Open AI。

大家可以通过官方 demo 感受一下 Qwen2.5-Omni 真实表现。

Qwen2.5-Omni 模型架构

Qwen2.5-Omni 具有以下特点：

Omni 和创新架构：团队提出了 Thinker-Talker 架构，这是一个端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。此外，团队还提出了一种名为 TMRoPE（Time-aligned Multimodal RoPE）的新型位置嵌入，用于同步视频输入与音频的时间戳；
实时语音和视频聊天：该架构专为完全实时交互而设计，支持分块输入和即时输出；
自然且稳健的语音生成：在语音生成方面，Qwen2.5-Omni 超越了许多现有的流式和非流式替代方案，展现出卓越的稳健性和自然性；
多模态性能强劲：在与同样大小的单模态模型进行基准测试时，Qwen2.5-Omni 在所有模态上均展现出卓越的性能。Qwen2.5-Omni 在音频能力上超越了同样大小的 Qwen2-Audio，并且达到了与 Qwen2.5-VL-7B 相当的性能；
出色的端到端语音指令遵循能力：Qwen2.5-Omni 在端到端语音指令遵循方面的表现可与文本输入的有效性相媲美，这一点在 MMLU 和 GSM8K 等基准测试中得到了证明。

前文我们已经提到，Qwen2.5-Omni 采用了 Thinker-Talker 架构。

Thinker 就像大脑一样，负责处理和理解来自文本、音频和视频模态的输入，生成高级表示以及对应的文本。

Talker 则像人类的嘴巴，以流式方式接收 Thinker 产生的高级表示和文本，并流畅地输出离散的语音 token。

Thinker 是一个 Transformer 解码器，配备有音频和图像的编码器，以便于提取信息。相比之下，Talker 被设计为一种双轨自回归 Transformer 解码器架构。

在训练和推理过程中，Talker 直接接收来自 Thinker 的高维表示，并共享 Thinker 的所有历史上下文信息。因此，整个架构作为一个统一的单一模型运行，实现了端到端的训练和推理。

Qwen2.5-Omni 模型架构

模型性能

团队人员对 Qwen2.5-Omni 进行了全面评估，结果表明，该模型在所有模态上的表现均优于类似大小的单模态模型以及闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多种模态的任务中，如 OmniBench，Qwen2.5-Omni 达到了最先进的水平。

此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU, MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和 subjective naturalness）。

© THE END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

2026-06-08

我开源了 PPT-Library：让历史 PPT 变成 AI 可复用资产

2026-06-08

knowledge-work-plugins：Anthropic 官方开源的知识工作插件集，19,000+Star

2026-06-08

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

2026-06-08

比Codex快4倍！终于有开源模型卷本地Agent执行效率了～

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

2026-03-20

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部