2026年4月2日 19:30分,来腾讯会议(限30人)了解如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

千问发布Qwen3.5-Omni全模态模型,超越Gemini3.1 Pro?附实测~

发布日期:2026-03-31 05:35:07 浏览次数: 1649
作者:刘聪NLP

微信搜一搜,关注“刘聪NLP”

推荐语

千问Qwen3.5-Omni全模态模型实测表现惊艳,在中文视频理解和长音频处理上超越Gemini3.1 Pro!

核心内容:
1. Qwen3.5-Omni在剑来PV解析中的细致表现
2. 超长播客内容快速解析的实用案例
3. 新增联网配置带来的效果提升

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


千问又又又更新模型了,Qwen3.5-Omni模型,也就是全模态模型,

这里的全模态,是指支持全模态输入,输出是文本或者语音。

话不多说,先看效果,

我让Qwen3.5-Omni模型分析了一下剑来 阿良PV的相关内容,并且对比了Gemini3.1 Pro的效果,Qwen3.5-Omni更细致并且知道剑来~


然后接入龙虾,我搞了个Skill,把罗永浩十字路口的2.5h的播客,直接4min速通,核心内容基本没问题~


还有真口喷,有点像测试VLM的网页复刻,不过这里没有其他额外提示词,纯直接根据视频内容和语音要求实现,还原度还不错~


先来说一下整体的测试感受,

  • 对视频的理解会更加细致,我测的一些中文case场景,是优于Gemini3.1 Pro的
  • 长音频理解很不错,并且准确打时间戳,能分析出人物与音频关系
  • 还有离线音频API能拉到3h,虽然很多模型声称可以拉到很长,但API基本上都会有大小或者时间的限制
  • API接口新加了个联网配置,extra_body={"enable_search": True}
  • 多语言说话人47个,方言说话人8个
  • 但纯VLM效果有明显下降,时钟、成语、空间变换等都没有Qwen3.5效果好

视频解析

视频解析,我直接让Qwen3.5-Omni模型分析一下剑来,阿良篇PV内容,


因为整个视频里没有出现阿良的字样,所以我觉得Qwen3.5-Omni是懂剑来的,知道大概这个东西,画面解析的也没啥问题,很细致,还点到了剑气长城的刻字-“猛”,

但是存在一个问题(大概率是训练数据造成),就是一些图像描述的专业词汇上,非要带着英文~

对于Gemini3.1 Pro的效果,整体不够细致,也不是十四境争篇,出现了错误,当然也不懂剑来~

为了验证新增的联网配置,看一下,开联网效果会如何?

你明显会看到,Qwen3.5-Omni的效果更好,把其中的细节描述的更详细了,就是检索内容并没有干扰主线,而是作为补充,让整个内容更完善。

对于Gemini3.1 Pro,收到了检索内容的干扰,人物角色关系,直接弄乱了,还陈平安。。。

Omni接入龙虾,解析超长播客

然后现在的播客内容越来越长,是真没时间听,比如张小珺最新采访谢赛宁的内容,7小时。。。。。

AI时代,就让Omni模型帮我听一下,直接上龙虾。

首先这种博客一般听音频就够了,没必要解读视频,所以我们第一步,是将网上的视频内容,直接转成音频内容,

拿youtube url为例,网上有一些现成的skill,可以直接使用,核心是yt-dlp,可以直接跟龙虾说,改一下,封装一个新的skill,

yt-dlp是需要浏览器cookie的,这个也简单,问Google或你的虾

然后就可以直接通过youtube的url下载mp3的音频文件。

那么来了,是不是直接把音频给大模型就可以了,

api调用Omni模型的时候,音频、视频、图片可以通过两种方式传输,第一种是base64数据、第二种就是外链url(能访问的url)

对于第一种,限制很多,当数据太大,就没有办法传输过去,

而第二种,相当于,大模型API的服务端,会通过的url,把视频下载到本地,再使用,可以接受更长更大的内容。

2个多小时的音频,base64数据根本传不过去,所以必须要做外链接,这里我用七牛云。

PS:当然可以分段裁剪,变成很短的内容再做,但会丢失精度,懂得都懂,我们这里就是要测试长内容理解。

怎么用,交给你的虾,他会写好

然后跟你说缺各种key,你补充上就可以了,

来测试一下上传效果,

外链接是可以直接访问的,

万事俱备,只差用Qwen3.5-Omni模型进行分析,依旧提供文档,自己封装

https://help.aliyun.com/zh/model-studio/qwen-omni

最后,效果将老罗采访蒋奇明和双雪涛这一期2.5h的内容,浓缩成4min的内容,

听过老罗这一期的可以验证一下效果,我觉得很不错,大幅度节省了我的时间,

一、一句话总结
本次访谈围绕电影《飞行家》展开,深入探讨了从小说到电影的改编逻辑、演员蒋奇明为角色苦练东北方言及塑造人物的过程,并延伸至双雪涛的创作生涯、东北文艺复兴现象以及当下文艺创作的困境与希望。

二、核心话题
1. 《飞行家》的改编策略,探讨为何将原著中虚幻的“民科”形象改为具备理工科背景的实干家,以及叙事视角的转变。
2. 演员的角色塑造,蒋奇明分享如何克服语言障碍掌握东北口音,以及对李明奇这一内敛角色的理解。
3. 双雪涛的创作历程,回顾从银行职员到职业作家的转型,以及作品影视化过程中的深度参与。
4. 东北文艺复兴与地域文化,分析东北题材作品爆发的社会背景及方言在表演中的独特魅力。
5. 文学与影视的现状,讨论文学市场的萎缩、短视频对注意力的争夺,以及年轻一代带来的新希望。

三、内容总结
- 罗永浩(主持人)
  - 关于改编:指出原著中李明奇更像是一个被他人描述的幻想家,而电影将其具象化为能造火箭的实干家,认为这种“变实”的处理是为了适应电影媒介,但也导致观影时偶尔出戏。
  - 关于表演:高度肯定蒋奇明的东北话还原度,作为东北人表示听不出破绽,甚至感到“毛骨悚然”的准确;同时探讨了蒋奇明两次饰演东北人(一次聋哑人,一次飞行家)的不同挑战。
  - 关于行业观察:分享了近期去深圳看到年轻创业者后的感触,认为虽然大环境悲观,但年轻人的创造力和冲劲让人重燃乐观;同时也表达了对文学式微和短视频碎片化阅读的担忧。
- 双雪涛(作家/编剧)
  - 关于创作初衷:解释电影改编的核心是将李明奇从一个“幻觉”变成一个“实践者”,因为电影需要物质性和行动力,不能只停留在虚写。
  - 关于选角与合作:透露早在三四年前因广告合作就注意到蒋奇明,后被其在话剧中的表现打动,坚定了一起合作长片的想法;强调在片场与演员通过大量讨论来打磨人物逻辑。
  - 关于写作生涯:回忆自己曾是银行信贷员,写作是唯一的“透气口”;提到早期投稿艰难,靠运气被编辑发现,并强调写作需要正向反馈才能坚持。关于东北题材:认为东北题材的爆发与时代变迁有关,那是父辈下岗潮的延后书写,也是对自己成长经历的重新审视。
- 蒋奇明(演员)
  - 关于语言准备:坦言自己并非天生会说地道的沈阳话,前期通过身边沈阳朋友(如老舅)耳濡目染,后期在片场由双雪涛和导演逐句纠正节奏和语调,甚至形成了肌肉记忆。
  - 关于角色理解:认为李明奇是一个极度内敛的东北男人,这与大众印象中外露的东北人不同;他通过阅读剧本和观看纪录片,试图捕捉那个年代人的精神状态。
  - 关于职业感悟:分享了自己从非科班出身到逐渐被认可的历程,提到早期演话剧积累的经验对电影表演至关重要;表示目前仍处于试错和探索阶段,不愿被定型。

四、核心金句
“我觉得电影还是比较物质的,如果我们在一个很虚的部分来讨论一个理想,感觉是以空对空,现在让它变成以实来对空,就是让它能够操作。”——双雪涛
“我最大的感受是,好的表演是被每一个年代、每个时代去选择的,我感觉这个标准一直在变。”——蒋奇明
“写作对我来说是一个透气的东西,当你凿开一个小洞往外看,你就心猿意马了,觉得原来的生活越来越枯燥。”——双雪涛

分开用很麻烦,直接三合一,就变成了一个一整套的Skill,可以直接使用。

真口喷

纯直接根据视频内容和语音要求实现,我把NotebookLM的官方改成QwenLM的,

我觉得我的发音还是有点问题的,但是能弄。。。。

展现效果如下,


关于Qwen3.5-Omni的技术细节,可以看,

blog:https://qwen.ai/blog?id=qwen3.5-omni

Qwen3.5-Omni 的Thinker与Talker 均采用 Hybrid-Attention MoE 架构,包含Plus、Flash、Light三种尺寸,

相较于Qwen3-Omni,在Talker的输入的组织方式上进行优化,采用自适应速率交错对齐来动态对齐文本与语音单元,然后进行交错排布,解决漏读、误读或数字发音模糊等问题。
榜单效果,
体验可以在: https://chat.qwen.ai/
API 离线:https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:https://help.aliyun.com/zh/model-studio/realtime
最后,

这里没放纯VL相关的测试截图,因为我觉得有些掉点,

大家可以自行测试,

但是Qwen3.5-Omni这次的长音频理解的效果,真的是有惊艳到我,

视频理解层面,实测下来也不弱于Gemini3.1 Pro,

中文的理解上也更好,

前两天的Qwen3.5-Max啥时候来呀,

急~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询