我要投稿

阿里开源“GPT-4o”，新Qwen2.5-Omni用“听说看想”感受真实世界

发布日期：2025-03-28 17:35:17 浏览次数： 2228

作者：卡尔的AI沃茨

微信搜一搜，关注“卡尔的AI沃茨”

连续三天没睡觉，

阿里新开源 Qwen2.5-Omni 把这周的 AI 浓度又推到了新高峰，

多了一个 Omini 后缀的 Qwen2.5 能听音频、看视频和开口说话，Qwen Chat 新上线的视频、语音实时通话的背后模型就是它。

看视频学冲咖啡的 GPT-4o 已经 low 了，学做菜才是正确打开方式。离谱的是这个模型大小才 7B，但凡有台 16GB 以上内存的电脑就可以无限使用。所以说这个小而全的模型含金量有多少？

在需要多模态的 OmniBench 上超过 Gemini 1.5 pro 达到最佳性能，在单模态任务中，音频超过了 Qwen2-Audio、图像超过 Qwen2.5 VL、在 NMOS （语音合成音频的自然度评估）上达到人类口语水平。

科普一下：多模态模型意味着 AI 能处理、分析、融合多种数据类型，包括但不限于文本、图像、音频、视频等

如果说去年我觉得多模态是锦上添花，在纯文本对话的环境里，让我可以偶尔聊聊天的程度，

那现在多模态绝对会今年各家模型的标配了，从 Gemini 2.0 flash、GPT4o、Grok3 陆续支持多模态生图和多轮对话就可以看出，下一代模型理应可以理解一切，生成一切。

轮到我掏出十级难度的音频、视频和图像题来考考 Qwen2.5-Omni 了。

一、音频理解

如果说有什么音频需要上 AI 的，

我投票前3一定是各种口音的外语、方言、甚至是歌曲。

印度英文?????

属于是我不看字幕完全听不懂的级别，

Qwen2.5-Omni 能够听懂并且直接跟说印度英语这个人对话，我再问了它刚刚那个印度人说了啥，它也明确告诉了是有关会议的时间和事项，理解力非常不错。另一边的 GPT-4o 沉思了几秒后，还算听懂了知道会议的开始时间和细节。

2. 塑料普通话 ????

虽说我也是懂点粤语，但是那么烫嘴的普通话我是第一次听，一秒20个气口停顿，我都呼吸不上来了。

Qwen2.5-Omni 这个安抚的语气像是个调解大师，不仅明白是关于垃圾处理的问题，还贴心的给出了解决办法。GPT-4o 也能听懂不少粤语，不过就仅限于提供内容了。

3. RAP ????

如果说前面两个是听不懂，这个就是很难听。不是歌曲难听，而是有音乐和旋律在 AI 很难识别，

Qwen2.5-Omni 不仅能够理解歌词，而且能够分析出其中歌曲想要表达的情绪，跟着音乐还会时不时的作出评价，差点要化身乐评师了。GPT-4o 没有给到我想要的情绪分析，只能告诉我听到了什么。这是因为 GPT-4o 其实无法识别音乐或者音频中的情绪，它只是识别了音频中的文字信息。这一点看来听歌挑战难度还是比较大的。

有意思的是，在三个 case 我都是在同一个对话里面实现的，Qwen2.5-Omni 并没有出现对话长了就降智的缺点，而且在我问完所有问题后，还能够回忆起第一个问题，7B大小也是大有可为啊。

二、视频理解

刚好续上 GPT PLUS，

我们来并行体验一下 GPT4o 和 Qwen2.5-Omni 的视频通话！

这里回收文章开头的的炒菜例子，

Qwen2.5-Omni 能根据多段视频来进行识别并给出我要的回答，每一步都很清晰的知道我放了什么食材，这个语气真的像个贴心大姐姐。GPT-4o 能识别出炒菜的具体步骤，还可以点评一下这好不好吃，

话说，AI真的懂什么是好吃吗？（它吃过吗？）

2. 还可以一起看电影

作为我的赛博朋友，我当然也请 GPT-4o 和 Qwen2.5-Omni 看了一场电影，

Qwen2.5-Omni 能够知道我在看的应该是电影或者电视剧，也能根据部分画面推测出电影的氛围和故事发展方向，不错不错。在通话的时候，我同样没有给 GPT-4o 太多信息，它更偏理性一点，给出了电影名以及一些电影相关的信息。

我勒个电影搭子，下次看哪吒3带你们两去！

三、复杂图像理解

音频、视频都测试了，现在到图片关卡。简单的应该已经难不倒它们俩了。所以我准备了3张复杂的图。

1. Qwen2.5-Omni能力说明图，是论文常用配图代表

GPT-4o 和 Qwen2.5-Omni 都准确得到了这图里面的模型是Qwen 2.5-omni,且盘点出了四种能力：视频、图像、音频、文本聊天。

2. 图像规律图，同时考验模型问题思考和图像识别能力

这次只上传图像，不给任何文字提醒，

这一把 GPT-4o 用了2次机会，Qwen2.5-Omni 用了3次机会后挑战成功。原图其实很小，能准确辨认出空心、实心、菱形、正方形、圆形的话是相当不错的。

3. 最后来一张动物园图，考验模型对多物体的准确识别和空间能力

有点牛有点牛！

Qwen2.5-Omni 这一轮把所有动物都认全了，把 GPT-4o 小赢了一把，4o在倒数第七个动物的时候被鳄鱼们迷惑了，可惜可惜。

顺带一提，因为参数小，Qwen2.5-Omni 的 API 还是相当快的，首字基本在0.3秒内就出了。

四、如何使用？

目前体验视频和语音互动最方便的路径还是在chat.qwen.ai

这次 Qwen2.5-Omni 只靠 7B 大小就能做到这种水平，从技术报告里我看出了更多细节，

? qwenlm.github.io/blog/qwen2.5-omni

Qwen2.5-Omni 用了新的模型架构 Thinker-Talker（情绪感知+流式生成）。Thinker 模块像大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块像发声器官，接收 Thinker 输出的语义表征与文本后合成语音。

除了这个，Qwen2.5-Omni 还有新的Position Embedding和位置编码算法 TMRoPE（Time-aligned Multimodal RoPE），实现音视频的精准同步。

写在最后

要我说，阿里是有集卡癖的，

从23年起，通义就陆续开发了0.5B、1.5B、3B、7B、14B、32B、72B、110B等参数的全尺寸大模型。

这次推出7B大小的 Qwen2.5-Omni，就很适合用于移动端或者小型设备，而且不需要从零开发，有各种尺寸的大模型作为技术支持，Omni 后续可以是任意尺寸，也当然可以生成各类数据。

现在真的是做到了听说读写样样精通了，每一次的对话能力都会让我觉得AI进步的脚步真的很快，

全能型AI就是你了，

Qwen！

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro

最后，感谢你看到这里?如果喜欢这篇文章，不妨顺手给我们点赞?｜在看?｜转发?｜评论?更多的内容正在不断填坑中……

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-14

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

别被“多模态”骗了：用一本200页的教材，我测出了GPT-5.2和Gemini的物种代差

2025-12-11

Qwen3-Omni新升级:声形意合，令出智随！

2025-12-11

首发实测智谱 GLM-TTS：3秒克隆我的声音，连「哎等等这bug怎么回事」都学会了

2025-12-11

硅基流动上线智谱视觉模型 GLM-4.6V

2025-12-11

GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

2025-12-11

Qwen3-TTS全面升级：声情并茂，语通八方

2025-12-09

Ming-Flash-Omni 音视图文全模态技术报告解读 —— 一为全，全为一

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

手把手教学：用n8n+RSS+飞书实现多平台热点自动抓取（含RSS源分享）

2025-09-19

谁是OCR王者？MinerU、PaddleOCR、DeepSeek-OCR 实测对比，集成一个多模态PDF解析系统

2025-11-10

DeepSeek-OCR 实测

2025-10-22

微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

2025-12-06

DeepSeek-OCR多模态数据分析Agent实战

2025-10-31

Qwen3-Omni：一个模型，全能不偏科

2025-09-25

多模态AI质检：身份核验场景实践

2025-09-17

阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

2025-12-07

Doc-Researcher：多模态文档解析准确率提升3.4倍

2025-11-03

Gemini 3 多模态Prompt：手相宗师 - 玄师

2025-11-19

大家都在问

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB