微信扫码
添加专属顾问
我要投稿
千问Qwen3.5-Omni全模态模型实测表现惊艳,在中文视频理解和长音频处理上超越Gemini3.1 Pro! 核心内容: 1. Qwen3.5-Omni在剑来PV解析中的细致表现 2. 超长播客内容快速解析的实用案例 3. 新增联网配置带来的效果提升
千问又又又更新模型了,Qwen3.5-Omni模型,也就是全模态模型,
这里的全模态,是指支持全模态输入,输出是文本或者语音。
话不多说,先看效果,
我让Qwen3.5-Omni模型分析了一下剑来 阿良PV的相关内容,并且对比了Gemini3.1 Pro的效果,Qwen3.5-Omni更细致并且知道剑来~
然后接入龙虾,我搞了个Skill,把罗永浩十字路口的2.5h的播客,直接4min速通,核心内容基本没问题~
还有真口喷,有点像测试VLM的网页复刻,不过这里没有其他额外提示词,纯直接根据视频内容和语音要求实现,还原度还不错~
先来说一下整体的测试感受,
视频解析,我直接让Qwen3.5-Omni模型分析一下剑来,阿良篇PV内容,
因为整个视频里没有出现阿良的字样,所以我觉得Qwen3.5-Omni是懂剑来的,知道大概这个东西,画面解析的也没啥问题,很细致,还点到了剑气长城的刻字-“猛”,
但是存在一个问题(大概率是训练数据造成),就是一些图像描述的专业词汇上,非要带着英文~
对于Gemini3.1 Pro的效果,整体不够细致,也不是十四境争篇,出现了错误,当然也不懂剑来~
为了验证新增的联网配置,看一下,开联网效果会如何?
你明显会看到,Qwen3.5-Omni的效果更好,把其中的细节描述的更详细了,就是检索内容并没有干扰主线,而是作为补充,让整个内容更完善。
对于Gemini3.1 Pro,收到了检索内容的干扰,人物角色关系,直接弄乱了,还陈平安。。。
然后现在的播客内容越来越长,是真没时间听,比如张小珺最新采访谢赛宁的内容,7小时。。。。。
AI时代,就让Omni模型帮我听一下,直接上龙虾。
首先这种博客一般听音频就够了,没必要解读视频,所以我们第一步,是将网上的视频内容,直接转成音频内容,
拿youtube url为例,网上有一些现成的skill,可以直接使用,核心是yt-dlp,可以直接跟龙虾说,改一下,封装一个新的skill,
yt-dlp是需要浏览器cookie的,这个也简单,问Google或你的虾
然后就可以直接通过youtube的url下载mp3的音频文件。
那么来了,是不是直接把音频给大模型就可以了,
api调用Omni模型的时候,音频、视频、图片可以通过两种方式传输,第一种是base64数据、第二种就是外链url(能访问的url)
对于第一种,限制很多,当数据太大,就没有办法传输过去,
而第二种,相当于,大模型API的服务端,会通过的url,把视频下载到本地,再使用,可以接受更长更大的内容。
2个多小时的音频,base64数据根本传不过去,所以必须要做外链接,这里我用七牛云。
PS:当然可以分段裁剪,变成很短的内容再做,但会丢失精度,懂得都懂,我们这里就是要测试长内容理解。
怎么用,交给你的虾,他会写好
然后跟你说缺各种key,你补充上就可以了,
来测试一下上传效果,
外链接是可以直接访问的,
万事俱备,只差用Qwen3.5-Omni模型进行分析,依旧提供文档,自己封装
https://help.aliyun.com/zh/model-studio/qwen-omni
最后,效果将老罗采访蒋奇明和双雪涛这一期2.5h的内容,浓缩成4min的内容,
听过老罗这一期的可以验证一下效果,我觉得很不错,大幅度节省了我的时间,
一、一句话总结
本次访谈围绕电影《飞行家》展开,深入探讨了从小说到电影的改编逻辑、演员蒋奇明为角色苦练东北方言及塑造人物的过程,并延伸至双雪涛的创作生涯、东北文艺复兴现象以及当下文艺创作的困境与希望。
二、核心话题
1. 《飞行家》的改编策略,探讨为何将原著中虚幻的“民科”形象改为具备理工科背景的实干家,以及叙事视角的转变。
2. 演员的角色塑造,蒋奇明分享如何克服语言障碍掌握东北口音,以及对李明奇这一内敛角色的理解。
3. 双雪涛的创作历程,回顾从银行职员到职业作家的转型,以及作品影视化过程中的深度参与。
4. 东北文艺复兴与地域文化,分析东北题材作品爆发的社会背景及方言在表演中的独特魅力。
5. 文学与影视的现状,讨论文学市场的萎缩、短视频对注意力的争夺,以及年轻一代带来的新希望。
三、内容总结
- 罗永浩(主持人)
- 关于改编:指出原著中李明奇更像是一个被他人描述的幻想家,而电影将其具象化为能造火箭的实干家,认为这种“变实”的处理是为了适应电影媒介,但也导致观影时偶尔出戏。
- 关于表演:高度肯定蒋奇明的东北话还原度,作为东北人表示听不出破绽,甚至感到“毛骨悚然”的准确;同时探讨了蒋奇明两次饰演东北人(一次聋哑人,一次飞行家)的不同挑战。
- 关于行业观察:分享了近期去深圳看到年轻创业者后的感触,认为虽然大环境悲观,但年轻人的创造力和冲劲让人重燃乐观;同时也表达了对文学式微和短视频碎片化阅读的担忧。
- 双雪涛(作家/编剧)
- 关于创作初衷:解释电影改编的核心是将李明奇从一个“幻觉”变成一个“实践者”,因为电影需要物质性和行动力,不能只停留在虚写。
- 关于选角与合作:透露早在三四年前因广告合作就注意到蒋奇明,后被其在话剧中的表现打动,坚定了一起合作长片的想法;强调在片场与演员通过大量讨论来打磨人物逻辑。
- 关于写作生涯:回忆自己曾是银行信贷员,写作是唯一的“透气口”;提到早期投稿艰难,靠运气被编辑发现,并强调写作需要正向反馈才能坚持。关于东北题材:认为东北题材的爆发与时代变迁有关,那是父辈下岗潮的延后书写,也是对自己成长经历的重新审视。
- 蒋奇明(演员)
- 关于语言准备:坦言自己并非天生会说地道的沈阳话,前期通过身边沈阳朋友(如老舅)耳濡目染,后期在片场由双雪涛和导演逐句纠正节奏和语调,甚至形成了肌肉记忆。
- 关于角色理解:认为李明奇是一个极度内敛的东北男人,这与大众印象中外露的东北人不同;他通过阅读剧本和观看纪录片,试图捕捉那个年代人的精神状态。
- 关于职业感悟:分享了自己从非科班出身到逐渐被认可的历程,提到早期演话剧积累的经验对电影表演至关重要;表示目前仍处于试错和探索阶段,不愿被定型。
四、核心金句
“我觉得电影还是比较物质的,如果我们在一个很虚的部分来讨论一个理想,感觉是以空对空,现在让它变成以实来对空,就是让它能够操作。”——双雪涛
“我最大的感受是,好的表演是被每一个年代、每个时代去选择的,我感觉这个标准一直在变。”——蒋奇明
“写作对我来说是一个透气的东西,当你凿开一个小洞往外看,你就心猿意马了,觉得原来的生活越来越枯燥。”——双雪涛
分开用很麻烦,直接三合一,就变成了一个一整套的Skill,可以直接使用。
纯直接根据视频内容和语音要求实现,我把NotebookLM的官方改成QwenLM的,
我觉得我的发音还是有点问题的,但是能弄。。。。
展现效果如下,
关于Qwen3.5-Omni的技术细节,可以看,
blog:https://qwen.ai/blog?id=qwen3.5-omni
Qwen3.5-Omni 的Thinker与Talker 均采用 Hybrid-Attention MoE 架构,包含Plus、Flash、Light三种尺寸,
这里没放纯VL相关的测试截图,因为我觉得有些掉点,
大家可以自行测试,
但是Qwen3.5-Omni这次的长音频理解的效果,真的是有惊艳到我,
视频理解层面,实测下来也不弱于Gemini3.1 Pro,
中文的理解上也更好,
前两天的Qwen3.5-Max啥时候来呀,
急~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-30
Google 和 Cohere 同日发布音频 AI 模型
2026-03-29
让“龙虾”帮你自动赚钱!OpenClaw Seedance 2.0 视频生成全攻略
2026-03-25
通用语音识别模型VibeVoice ASR:长达60分钟音频一次性“直出”结构化转写
2026-03-25
Agent 语音交互如何更稳、更快?一次高并发消息链路优化实践
2026-03-18
GLM-OCR技术细节全公开
2026-03-18
Midjourney V8 正式上线:高清模式、文字无错、生成速度提升5倍
2026-03-15
我复刻了 Claude 刚发布的生成式 UI 交互!
2026-03-12
Gemini Embedding 2把多模态信息整合同一向量空间了,还需要多向量列吗?
2026-01-10
2026-01-16
2026-02-12
2026-01-05
2026-02-12
2026-01-22
2026-02-27
2026-03-05
2026-01-27
2026-03-11
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30