2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

千问发布Qwen3.5-Omni全模态模型,超越Gemini3.1 Pro?附实测~

发布日期:2026-03-31 05:35:07 浏览次数: 2470
作者:刘聪NLP

微信搜一搜,关注“刘聪NLP”

推荐语

千问Qwen3.5-Omni全模态模型实测表现惊艳,在中文视频理解和长音频处理上超越Gemini3.1 Pro!

核心内容:
1. Qwen3.5-Omni在剑来PV解析中的细致表现
2. 超长播客内容快速解析的实用案例
3. 新增联网配置带来的效果提升

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


千问又又又更新模型了,Qwen3.5-Omni模型,也就是全模态模型,

这里的全模态,是指支持全模态输入,输出是文本或者语音。

话不多说,先看效果,

我让Qwen3.5-Omni模型分析了一下剑来 阿良PV的相关内容,并且对比了Gemini3.1 Pro的效果,Qwen3.5-Omni更细致并且知道剑来~


然后接入龙虾,我搞了个Skill,把罗永浩十字路口的2.5h的播客,直接4min速通,核心内容基本没问题~


还有真口喷,有点像测试VLM的网页复刻,不过这里没有其他额外提示词,纯直接根据视频内容和语音要求实现,还原度还不错~


先来说一下整体的测试感受,

  • 对视频的理解会更加细致,我测的一些中文case场景,是优于Gemini3.1 Pro的
  • 长音频理解很不错,并且准确打时间戳,能分析出人物与音频关系
  • 还有离线音频API能拉到3h,虽然很多模型声称可以拉到很长,但API基本上都会有大小或者时间的限制
  • API接口新加了个联网配置,extra_body={"enable_search": True}
  • 多语言说话人47个,方言说话人8个
  • 但纯VLM效果有明显下降,时钟、成语、空间变换等都没有Qwen3.5效果好

视频解析

视频解析,我直接让Qwen3.5-Omni模型分析一下剑来,阿良篇PV内容,


因为整个视频里没有出现阿良的字样,所以我觉得Qwen3.5-Omni是懂剑来的,知道大概这个东西,画面解析的也没啥问题,很细致,还点到了剑气长城的刻字-“猛”,

但是存在一个问题(大概率是训练数据造成),就是一些图像描述的专业词汇上,非要带着英文~

对于Gemini3.1 Pro的效果,整体不够细致,也不是十四境争篇,出现了错误,当然也不懂剑来~

为了验证新增的联网配置,看一下,开联网效果会如何?

你明显会看到,Qwen3.5-Omni的效果更好,把其中的细节描述的更详细了,就是检索内容并没有干扰主线,而是作为补充,让整个内容更完善。

对于Gemini3.1 Pro,收到了检索内容的干扰,人物角色关系,直接弄乱了,还陈平安。。。

Omni接入龙虾,解析超长播客

然后现在的播客内容越来越长,是真没时间听,比如张小珺最新采访谢赛宁的内容,7小时。。。。。

AI时代,就让Omni模型帮我听一下,直接上龙虾。

首先这种博客一般听音频就够了,没必要解读视频,所以我们第一步,是将网上的视频内容,直接转成音频内容,

拿youtube url为例,网上有一些现成的skill,可以直接使用,核心是yt-dlp,可以直接跟龙虾说,改一下,封装一个新的skill,

yt-dlp是需要浏览器cookie的,这个也简单,问Google或你的虾

然后就可以直接通过youtube的url下载mp3的音频文件。

那么来了,是不是直接把音频给大模型就可以了,

api调用Omni模型的时候,音频、视频、图片可以通过两种方式传输,第一种是base64数据、第二种就是外链url(能访问的url)

对于第一种,限制很多,当数据太大,就没有办法传输过去,

而第二种,相当于,大模型API的服务端,会通过的url,把视频下载到本地,再使用,可以接受更长更大的内容。

2个多小时的音频,base64数据根本传不过去,所以必须要做外链接,这里我用七牛云。

PS:当然可以分段裁剪,变成很短的内容再做,但会丢失精度,懂得都懂,我们这里就是要测试长内容理解。

怎么用,交给你的虾,他会写好

然后跟你说缺各种key,你补充上就可以了,

来测试一下上传效果,

外链接是可以直接访问的,

万事俱备,只差用Qwen3.5-Omni模型进行分析,依旧提供文档,自己封装

https://help.aliyun.com/zh/model-studio/qwen-omni

最后,效果将老罗采访蒋奇明和双雪涛这一期2.5h的内容,浓缩成4min的内容,

听过老罗这一期的可以验证一下效果,我觉得很不错,大幅度节省了我的时间,

一、一句话总结
本次访谈围绕电影《飞行家》展开,深入探讨了从小说到电影的改编逻辑、演员蒋奇明为角色苦练东北方言及塑造人物的过程,并延伸至双雪涛的创作生涯、东北文艺复兴现象以及当下文艺创作的困境与希望。

二、核心话题
1. 《飞行家》的改编策略,探讨为何将原著中虚幻的“民科”形象改为具备理工科背景的实干家,以及叙事视角的转变。
2. 演员的角色塑造,蒋奇明分享如何克服语言障碍掌握东北口音,以及对李明奇这一内敛角色的理解。
3. 双雪涛的创作历程,回顾从银行职员到职业作家的转型,以及作品影视化过程中的深度参与。
4. 东北文艺复兴与地域文化,分析东北题材作品爆发的社会背景及方言在表演中的独特魅力。
5. 文学与影视的现状,讨论文学市场的萎缩、短视频对注意力的争夺,以及年轻一代带来的新希望。

三、内容总结
- 罗永浩(主持人)
  - 关于改编:指出原著中李明奇更像是一个被他人描述的幻想家,而电影将其具象化为能造火箭的实干家,认为这种“变实”的处理是为了适应电影媒介,但也导致观影时偶尔出戏。
  - 关于表演:高度肯定蒋奇明的东北话还原度,作为东北人表示听不出破绽,甚至感到“毛骨悚然”的准确;同时探讨了蒋奇明两次饰演东北人(一次聋哑人,一次飞行家)的不同挑战。
  - 关于行业观察:分享了近期去深圳看到年轻创业者后的感触,认为虽然大环境悲观,但年轻人的创造力和冲劲让人重燃乐观;同时也表达了对文学式微和短视频碎片化阅读的担忧。
- 双雪涛(作家/编剧)
  - 关于创作初衷:解释电影改编的核心是将李明奇从一个“幻觉”变成一个“实践者”,因为电影需要物质性和行动力,不能只停留在虚写。
  - 关于选角与合作:透露早在三四年前因广告合作就注意到蒋奇明,后被其在话剧中的表现打动,坚定了一起合作长片的想法;强调在片场与演员通过大量讨论来打磨人物逻辑。
  - 关于写作生涯:回忆自己曾是银行信贷员,写作是唯一的“透气口”;提到早期投稿艰难,靠运气被编辑发现,并强调写作需要正向反馈才能坚持。关于东北题材:认为东北题材的爆发与时代变迁有关,那是父辈下岗潮的延后书写,也是对自己成长经历的重新审视。
- 蒋奇明(演员)
  - 关于语言准备:坦言自己并非天生会说地道的沈阳话,前期通过身边沈阳朋友(如老舅)耳濡目染,后期在片场由双雪涛和导演逐句纠正节奏和语调,甚至形成了肌肉记忆。
  - 关于角色理解:认为李明奇是一个极度内敛的东北男人,这与大众印象中外露的东北人不同;他通过阅读剧本和观看纪录片,试图捕捉那个年代人的精神状态。
  - 关于职业感悟:分享了自己从非科班出身到逐渐被认可的历程,提到早期演话剧积累的经验对电影表演至关重要;表示目前仍处于试错和探索阶段,不愿被定型。

四、核心金句
“我觉得电影还是比较物质的,如果我们在一个很虚的部分来讨论一个理想,感觉是以空对空,现在让它变成以实来对空,就是让它能够操作。”——双雪涛
“我最大的感受是,好的表演是被每一个年代、每个时代去选择的,我感觉这个标准一直在变。”——蒋奇明
“写作对我来说是一个透气的东西,当你凿开一个小洞往外看,你就心猿意马了,觉得原来的生活越来越枯燥。”——双雪涛

分开用很麻烦,直接三合一,就变成了一个一整套的Skill,可以直接使用。

真口喷

纯直接根据视频内容和语音要求实现,我把NotebookLM的官方改成QwenLM的,

我觉得我的发音还是有点问题的,但是能弄。。。。

展现效果如下,


关于Qwen3.5-Omni的技术细节,可以看,

blog:https://qwen.ai/blog?id=qwen3.5-omni

Qwen3.5-Omni 的Thinker与Talker 均采用 Hybrid-Attention MoE 架构,包含Plus、Flash、Light三种尺寸,

相较于Qwen3-Omni,在Talker的输入的组织方式上进行优化,采用自适应速率交错对齐来动态对齐文本与语音单元,然后进行交错排布,解决漏读、误读或数字发音模糊等问题。
榜单效果,
体验可以在: https://chat.qwen.ai/
API 离线:https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:https://help.aliyun.com/zh/model-studio/realtime
最后,

这里没放纯VL相关的测试截图,因为我觉得有些掉点,

大家可以自行测试,

但是Qwen3.5-Omni这次的长音频理解的效果,真的是有惊艳到我,

视频理解层面,实测下来也不弱于Gemini3.1 Pro,

中文的理解上也更好,

前两天的Qwen3.5-Max啥时候来呀,

急~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅