千问发布Qwen3.5-Omni全模态模型，超越Gemini3.1 Pro？附实测~

发布日期：2026-03-31 05:35:07 浏览次数： 2472

作者：刘聪NLP

微信搜一搜，关注“刘聪NLP”

千问又又又更新模型了，Qwen3.5-Omni模型，也就是全模态模型，

这里的全模态，是指支持全模态输入，输出是文本或者语音。

话不多说，先看效果，

我让Qwen3.5-Omni模型分析了一下剑来阿良PV的相关内容，并且对比了Gemini3.1 Pro的效果，Qwen3.5-Omni更细致并且知道剑来~

然后接入龙虾，我搞了个Skill，把罗永浩十字路口的2.5h的播客，直接4min速通，核心内容基本没问题~

还有真口喷，有点像测试VLM的网页复刻，不过这里没有其他额外提示词，纯直接根据视频内容和语音要求实现，还原度还不错~

先来说一下整体的测试感受，

对视频的理解会更加细致，我测的一些中文case场景，是优于Gemini3.1 Pro的
长音频理解很不错，并且准确打时间戳，能分析出人物与音频关系
还有离线音频API能拉到3h，虽然很多模型声称可以拉到很长，但API基本上都会有大小或者时间的限制
API接口新加了个联网配置，extra_body={"enable_search": True}
多语言说话人47个，方言说话人8个
但纯VLM效果有明显下降，时钟、成语、空间变换等都没有Qwen3.5效果好

视频解析

视频解析，我直接让Qwen3.5-Omni模型分析一下剑来，阿良篇PV内容，

因为整个视频里没有出现阿良的字样，所以我觉得Qwen3.5-Omni是懂剑来的，知道大概这个东西，画面解析的也没啥问题，很细致，还点到了剑气长城的刻字-“猛”，

但是存在一个问题（大概率是训练数据造成），就是一些图像描述的专业词汇上，非要带着英文~

对于Gemini3.1 Pro的效果，整体不够细致，也不是十四境争篇，出现了错误，当然也不懂剑来~

为了验证新增的联网配置，看一下，开联网效果会如何？

你明显会看到，Qwen3.5-Omni的效果更好，把其中的细节描述的更详细了，就是检索内容并没有干扰主线，而是作为补充，让整个内容更完善。

对于Gemini3.1 Pro，收到了检索内容的干扰，人物角色关系，直接弄乱了，还陈平安。。。

Omni接入龙虾，解析超长播客

然后现在的播客内容越来越长，是真没时间听，比如张小珺最新采访谢赛宁的内容，7小时。。。。。

AI时代，就让Omni模型帮我听一下，直接上龙虾。

首先这种博客一般听音频就够了，没必要解读视频，所以我们第一步，是将网上的视频内容，直接转成音频内容，

拿youtube url为例，网上有一些现成的skill，可以直接使用，核心是yt-dlp，可以直接跟龙虾说，改一下，封装一个新的skill，

yt-dlp是需要浏览器cookie的，这个也简单，问Google或你的虾

然后就可以直接通过youtube的url下载mp3的音频文件。

那么来了，是不是直接把音频给大模型就可以了，

api调用Omni模型的时候，音频、视频、图片可以通过两种方式传输，第一种是base64数据、第二种就是外链url（能访问的url）

对于第一种，限制很多，当数据太大，就没有办法传输过去，

而第二种，相当于，大模型API的服务端，会通过的url，把视频下载到本地，再使用，可以接受更长更大的内容。

2个多小时的音频，base64数据根本传不过去，所以必须要做外链接，这里我用七牛云。

PS：当然可以分段裁剪，变成很短的内容再做，但会丢失精度，懂得都懂，我们这里就是要测试长内容理解。

怎么用，交给你的虾，他会写好

然后跟你说缺各种key，你补充上就可以了，

来测试一下上传效果，

外链接是可以直接访问的，

万事俱备，只差用Qwen3.5-Omni模型进行分析，依旧提供文档，自己封装

https://help.aliyun.com/zh/model-studio/qwen-omni

最后，效果将老罗采访蒋奇明和双雪涛这一期2.5h的内容，浓缩成4min的内容，

听过老罗这一期的可以验证一下效果，我觉得很不错，大幅度节省了我的时间，

一、一句话总结
本次访谈围绕电影《飞行家》展开，深入探讨了从小说到电影的改编逻辑、演员蒋奇明为角色苦练东北方言及塑造人物的过程，并延伸至双雪涛的创作生涯、东北文艺复兴现象以及当下文艺创作的困境与希望。

二、核心话题
1. 《飞行家》的改编策略，探讨为何将原著中虚幻的“民科”形象改为具备理工科背景的实干家，以及叙事视角的转变。
2. 演员的角色塑造，蒋奇明分享如何克服语言障碍掌握东北口音，以及对李明奇这一内敛角色的理解。
3. 双雪涛的创作历程，回顾从银行职员到职业作家的转型，以及作品影视化过程中的深度参与。
4. 东北文艺复兴与地域文化，分析东北题材作品爆发的社会背景及方言在表演中的独特魅力。
5. 文学与影视的现状，讨论文学市场的萎缩、短视频对注意力的争夺，以及年轻一代带来的新希望。

三、内容总结
- 罗永浩（主持人）
  - 关于改编：指出原著中李明奇更像是一个被他人描述的幻想家，而电影将其具象化为能造火箭的实干家，认为这种“变实”的处理是为了适应电影媒介，但也导致观影时偶尔出戏。
  - 关于表演：高度肯定蒋奇明的东北话还原度，作为东北人表示听不出破绽，甚至感到“毛骨悚然”的准确；同时探讨了蒋奇明两次饰演东北人（一次聋哑人，一次飞行家）的不同挑战。
  - 关于行业观察：分享了近期去深圳看到年轻创业者后的感触，认为虽然大环境悲观，但年轻人的创造力和冲劲让人重燃乐观；同时也表达了对文学式微和短视频碎片化阅读的担忧。
- 双雪涛（作家/编剧）
  - 关于创作初衷：解释电影改编的核心是将李明奇从一个“幻觉”变成一个“实践者”，因为电影需要物质性和行动力，不能只停留在虚写。
  - 关于选角与合作：透露早在三四年前因广告合作就注意到蒋奇明，后被其在话剧中的表现打动，坚定了一起合作长片的想法；强调在片场与演员通过大量讨论来打磨人物逻辑。
  - 关于写作生涯：回忆自己曾是银行信贷员，写作是唯一的“透气口”；提到早期投稿艰难，靠运气被编辑发现，并强调写作需要正向反馈才能坚持。关于东北题材：认为东北题材的爆发与时代变迁有关，那是父辈下岗潮的延后书写，也是对自己成长经历的重新审视。
- 蒋奇明（演员）
  - 关于语言准备：坦言自己并非天生会说地道的沈阳话，前期通过身边沈阳朋友（如老舅）耳濡目染，后期在片场由双雪涛和导演逐句纠正节奏和语调，甚至形成了肌肉记忆。
  - 关于角色理解：认为李明奇是一个极度内敛的东北男人，这与大众印象中外露的东北人不同；他通过阅读剧本和观看纪录片，试图捕捉那个年代人的精神状态。
  - 关于职业感悟：分享了自己从非科班出身到逐渐被认可的历程，提到早期演话剧积累的经验对电影表演至关重要；表示目前仍处于试错和探索阶段，不愿被定型。

四、核心金句
“我觉得电影还是比较物质的，如果我们在一个很虚的部分来讨论一个理想，感觉是以空对空，现在让它变成以实来对空，就是让它能够操作。”——双雪涛
“我最大的感受是，好的表演是被每一个年代、每个时代去选择的，我感觉这个标准一直在变。”——蒋奇明
“写作对我来说是一个透气的东西，当你凿开一个小洞往外看，你就心猿意马了，觉得原来的生活越来越枯燥。”——双雪涛