来了，Qwen3.5-Plus开源，是除夕夜最惊喜的原生多模态模型

发布日期：2026-02-16 17:34:55 浏览次数： 2698

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

大家好，我是PaperAgent，不是Agent！

今年的AI春节档，阿里千问没有缺席~

刚刷到消息，他们正式开源了新一代大模型Qwen3.5-Plus，发布即登顶，实打实的最强"源神"。

看到性能数据的那一刻，我还是愣了一下——397B，激活仅17B——在多项基准（多模态、Agent等）媲美甚至超越GPT-5.2、Gemini-3-pro，这是硬实力。

更关键的是，这是一个真正意义上的原生多模态开源模型。

01 原生多模态，不是简单拼接

要理解千问3.5的突破，得先聊聊多模态模型这些年是怎么过来的。

很长一段时间里，所谓多模态模型，其实就是“文本模型+视觉Adapter”的缝合怪。

模型先在几十T的文本上预训练，把语言能力练得滚瓜烂熟，然后找一堆图像-文本对，训练一个视觉模块，把图片转成token，硬塞给文本模型去理解。

这种做法最大的问题是：模型睁开“眼睛”的时候，脑子已经定型了。

所以你会发现，很多多模态模型看个图表都费劲，更别提理解视频里的人物关系变化、空间位置转换这些需要时序推理的任务了。

千问3.5不一样。

它是从零开始，直接在海量混合token上训练的。文本、图像、视频打散了混在一起喂进去，让模型在学语法规则的同时，也在学像素之间的逻辑关系。

这意味着什么？

意味着它看一张厨房照片，不需要先转成“灶台、水槽、冰箱”这些文本概念再去推理。它可以直接理解灶台和水槽的相对位置，判断这个厨房的动线合不合理。

这种能力，不是外挂视觉模块能给的。

02 门控注意力：AI 顶会认证

千问团队去年有一篇论文拿下了NeurIPS 2025的最佳论文。

研究的是个挺细节的问题：注意力机制里加个门控，到底有什么用？

这个问题的答案，现在被装进了千问3.5。

千问团队发现，在注意力输出后面加一个head-specific的sigmoid门控，效果出奇的好。

好在哪里？

带来了稀疏性。门控分数平均只有0.116，意味着大部分信息被过滤掉了。这听起来像是损失信息，但实际上，它滤掉的是那些对当前token无意义的上下文噪音。

说白了，就是让模型学会在满屏信息里只盯着跟自己有关的内容看，其他的自动屏蔽，跟人看书时自动忽略无关广告一样自然。

这对提升模型的输出精度和长上下文泛化能力功不可没。

03 稀疏激活的极致：397B，只花17B

大模型竞赛跑到今天，大家都明白一个道理：参数总量没那么重要，激活参数才决定推理成本。

Qwen3.5-Plus模型的3970亿总参数，激活只用170亿。不到二十分之一的参数量在工作，却能撑起超越万亿模型（Qwen3-Max）的性能。

这背后是混合架构的功劳。线性注意力加稀疏MoE，再加门控机制的稀疏激活，把计算效率压到了极致。

更关键的是，这个效率优势是在原生多模态训练框架下实现的。千问团队把视觉组件和语言组件的并行策略解耦，用稀疏激活让跨模块计算重叠起来。结果是：混着图像、视频、文本一起训练，吞吐量跟纯文本训练几乎没差别。同时，通过设计精巧的FP8/FP32精度应用策略，激活内存减少约50% ，训练提速10%。

这些技术细节意味着原生多模态训练技术路线被千问3.5打通了，而且能走得比缝合怪模式更远。