我要投稿

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

发布日期：2025-09-17 18:04:50 浏览次数： 1533

作者：CodeDriver AI Lab

微信搜一搜，关注“CodeDriver AI Lab”

点击上方蓝字关注我们

拒绝

接受

上周，通义实验室发布并开源了新模型：Qwen3-Next。实际上，与其关注模型是否有比xxx更厉害，不如关注 80B-A3B 如此稀疏的架构却能让性能保持领先，这是多么值得兴奋的一件事？在本文中，我们对其进行了模型并发和长上下文的测试。结果是出乎意料的，有人能解释下神秘“!”为什么会频繁出现吗？

我们至少进行了一年的实验

紧跟 Qwen3-Next 官宣发布的凌晨，Qwen模型负责人林俊旸发文说：

两大 Scaling 趋势：长上下文、总参数规模

通义千文团队认为，Context Length Scaling（长上下文）和 Total Parameter Scaling（模型总参数）是未来大模型发展的两大趋势。

不难理解，Agentic System 的发展得益于长思考模型（上半年的主战场），而在这个过程中，必须面临的难题就是长上下文不足。而无限堆叠上下文窗口是无意义的，如何在更长的窗口中仍然保证模型性能是必须要得到解决的方向之一。（参考：长上下文的失败？）

而模型总参数已经不再是密集模型的竞争了。回过头看今年发布的所有模型，有几个是dense模型呢？GLM4.5、Kimi k2、GPT-OSS，全部是 MoE 的稀疏架构，且高稀疏性成为了模型构建厂商一个“目标”。在该背景下，模型总参数规模还可以无限扩增，而激活参数可以不到总参数的1/10。

但是，这两个（长上下文&总参数规模），哪一个都不是省油的灯，他们都意味着在有限资源下模型训练成本直线攀升，模型推理速度直线下降。

而如何进一步提升模型在长上下文和大规模总参数下的训练和推理效率，Qwen3-Next 发布和开源的意义就在这里。

迈向更极致的训练推理性价比

按照正常的训练流程（Base→Instruct→RL），Qwen 首先训练了 Qwen3-Next-80B-A3B-Base 模型。

该模型拥有 800 亿参数，但仅激活 30 亿参数。却在 Base 模型上实现了与 Qwen3-32B dense 模型相近甚至略好的性能。

而训练成本（GPU hours）仅为 Qwen3-32B 的十分之一不到，在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上。实现了极致的训练和推理性价比。

基于 Base，Qwen 同步开发并发布了对应的 Instruct 和 Thinking 模型。

在该过程中，他们主要解决了混合注意力机制 + 高稀疏度 MoE 架构在强化学习训练中长期存在的稳定性与效率难题，实现了 RL 训练效率与最终效果的双重提升。

Qwen3-Next-80B-A3B-Instruct 与旗舰模型 Qwen3-235B-A22B-Instruct-2507 表现相当。

而 Qwen3-Next-80B-A3B-Thinking 则显著优于预训练成本更高的 Qwen3-30B-A3B-Thinking-2507 与 Qwen3-32B-Thinking。

更在多项基准测试中超越了闭源模型 Gemini-2.5-Flash-Thinking。

Qwen3-Next-80B-A3B-Thinking 模型评测结果（来自官方）

Qwen3-Next vs. Qwen-32B

实验设置

推理引擎：VLLM / HF Transformers
测试模型：

Qwen3-Next-80B-A3B-Instruct

Qwen3-Next-80B-A3B-Thinking

Qwen3-32B

计算资源：4 x H20 96GB NVLINK

（在部署和测试中，不建议使用 A800 显卡，暂不知道什么原因，会卡在 TP0 加载，这让我们测试过程很“曲折”）

Qwen3-Next 显存占用

在测试显存占用时，我们采用 HF Transformers 拉起模型，并执行一个简单请求。总显存占用约为 150 GB。

这意味着，在不考虑并发需求下，我们可以在两张 A100 80 GB 完成模型的部署和推理。

并发测试

在并发测试中，我们采用以下设置：

PROMPT：“请写一个关于人工智能发展历程的简短段落，包含主要里程碑”；
MAX_TOKENS：4096
并发数：128
总请求数：1024

实验结果：

（TPS：Tokens/s；RPS：Requests/s）

模型	成功率	总耗时	总生成 Tokens	整体吞吐量	请求吞吐量
Qwen3-32B	100%	162.44s	640567	3943.50 TPS	6.30 RPS
Qwen3-Next-80B-A3B-Instruct	100%	63.77s	229458	3597.98 TPS	16.06 RPS
Qwen3-Next-80B-A3B-Thinking	100%	451.70s	1922518	4256.22 TPS	2.27 RPS

以下是原生测试输出结果，您可以从中看到更多细节：

从结果中，我们可以得到以下讯息：

Qwen3-Next-Instruct

在相同并发级别下，其请求吞吐量（RPS）达到 16.06，是 Qwen3-32B 的 2.55 倍；

平均响应时间仅 7.85 秒（Qwen3-32B 为 19.55 秒），且最大响应时间控制在 10.88 秒，不仅是时效，更多看到的是稳定性；

总耗时仅为 Qwen3-32B 的 39%（63.77s vs 162.44s）。

Qwen3-Next-Thinking

尽管整体吞吐量（TPS）达到 4,256.22（超 Qwen3-32B 1.08 倍），但总耗时长达 451.70s（是 Qwen3-Next-Instruct 的 7.1 倍），且最大响应时间高达 1119.11 秒，表明其更适合对延迟不敏感但需高输出质量的场景；

RPS 仅为 2.27，远低于 Instruct。

长上下文测试：神秘”!”循环输出

我抱有与 Qwen 官方同样的观点：在 Agentic System 盛行的时代，长上下文 Scaling 必然是当前模型发展的重要趋势。

在该测试中，我们采用 BABILong 作为基准测试集，其是一个简单的检索任务：已知句子（“针”）被放置在一个冗长的、不相关文本的文档中（“草堆”），模型被提示去检索它。简单来说，它考验了一个模型从大量与任务无关的噪音中辨别出关键信息。

在我们的实验中，选择了 BABILong 内最为简单的任务：QA1（仅需模型检索出单一事实），并在上下文长度从 0k 扩展至了 1M。

任务示例

而实验结果出乎意料。

我们先进行了 Qwen3-32B 的测试，一切看起来都很正常：

模型在 32K 之前的表现都十分优异，直到 64K 才开始有明显的准确率不足的现象；128K 表现出的性能不足也符合我们的预期；256K 及往后无法有效执行也符合官网对该模型最长支持 128K 上下文的描述。

以下还有一份关于模型准确率和平均响应时间的趋势图：

可以看到，从 32K 开始，模型的推理时间变得难以接受（接近 10 分钟的处理时间）。不过也还算是预期内吧。

再让我们看看 Qwen3-Next-80B-A3B-Instruct 的：

嘿？？？您这不对吧 …（老北京腔调）

且不说在 0K 就开始出现错误，4K 及往后怎么全部 fail 了？？

回头查看日志，就出现了以下让我百思不得其解的事：

模型似乎选择了罢工，循环输出“!”直至指定的 Max Tokens 耗尽。这种情况在 Qwen3-Next-80B-A3B-Thinking 模型也同样出现，思考数据也全部是“!

而第一次出现这种情况，是在上下文窗口为 2K 时：

不仅如此，在查看上下文窗口为 0K 的日志时，发现了模型不知道从哪学会的小儿科舞弊行为：

我们期望模型从长度仅为几百个 Tokens 中找出“Sandra 现在在哪里？”（office 是正确答案）。而Qwen3-Next 似乎想在有限的 Tokens 内尝试尽可能多的答案来蒙混过关。

Qwen3-Next 内心 os：万一我猜对了呢？？

有人说，这可能是在 RL 阶段学习到的。好吧，我很想否定这种可能。因为这也许意味着其训练的 Rule Reward 设计中大量的校验代码都被“偷工减料”了。

但是我想不出来其他可能了。所以，我叫它：小儿科舞弊。

总结（闲谈）

我应该是公众号第一个转发 Qwen3-Next 发布讯息的媒体，那时我正准备关手机睡觉。

我从未这样追踪热点，按以往尿性，我会第二天一早认真看看 Model Card 之类的再发布一篇高质量的文章。

但此次发布是令我激动的。刚收到发布讯息，看了几眼就转头跟我朋友说：“这或许是 to G 或任何需要本地化的大模型应用最合适的模型选择”。

新颖的混合架构，80B 总参，3B 激活参，MTP，官称 1M 上下文，高性能表现，训推性价比。似乎在任何场景都是一个十分不错的选项。

但测试结果是不如人意的。虽然不是全面测评，自然不能全盘否定。但出现如此滑稽的测试结果也相信令所有人惊讶。

是我的配置不对？是我的代码不对？是我推理引擎选错了？

实话说，我最开始是在不断怀疑自己。但在不断排查问题过程中，模型加载全部依照官方指引，代码仅作结果落盘还能有什么问题？推理引擎 VLLM / SGLang 都测过（同样官方推荐）；

结果依旧不变，仍会出现奇奇怪怪的问题。

我朋友调侃道：“呵，现在是你最失望的模型了”。

我：……

模型架构：四个关键点速览

下面是一些在测试开始之前就从 Qwen3-Next 官方 Blog 内摘录好的模型架构介绍。尽管测试出现问题，还是应该肯定此次模型架构创新是意义重大的。期望能延续该创新作出更好的成绩！

老规矩，先放图：

Qwen3-Next 模型架构示意图

要点1｜混合架构：Gated DeltaNet + Gated Attention

线形注意力打破了标注注意力打破了标准注意力的二次复杂度，在处理上上下文时有着更高的效率。

Qwen 团队发现，单纯使用线性注意力或标准注意力均存在局限：前者在长序列建模上效率高但召回能力弱；后者计算开销大，推理不友好。

通过系统实验，发现 Gated DeltaNet 相比常用的滑动窗口注意力（Sliding Window Attention）和 Mamba2 有更强的上下文学习（in-context learning）能力，并在3:1的混合比例（即 75% 层使用 Gated DeltaNet，25% 层保留标准注意力）下能一致超越单一架构，实现性能与效率的双重优化。

在保留的标准注意力中，Qwen3-Next 进一步引入多项增强设计：

沿用 Qwen 先前工作中的输出门控机制，缓解注意力中的低秩问题；
将单个注意力头维度从 128 扩展至 256；
仅对注意力头前 25% 的位置维度添加旋转位置编码，提高长度外推效果。

要点2｜极致稀疏 MoE：仅激活 3.7% 参数

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts（MoE）架构，总参数量达 80B，每次推理仅激活约 3B 参数。

实验表明，在使用全局负载均衡后，当激活专家固定时，持续增加专家总参数可带来训练 los 的稳定下降。

相比 Qwen3 MoE 的 128 个总专家和 8 个路由专家，Qwen3-Next 扩展到了 512 总专家，10 路由专家与 1 共享专家的组合，在不牺牲效果的前提下最大化资源利用率。

要点3｜训练稳定性友好设计

团队发现，注意力输出门控机制能消除注意力池与极大激活等现象，保证模型各部分的数值稳定。

在 Qwen3 中采用了 QK-Norm，发现部分层的 norm weight 值会出现异常高的现象。

为了缓解这一现象，进一步提高模型的稳定性，Qwen3-Next 中采用了 Zero- CenteredRMSNorm，并在此基础上，对 norm weight 施加 weight decay，以避免权重无界增长。

Qwen3-Next 还在初始化时归一化了 MoE Router 的参数，确保每个 Expert 在训练早期都能被无偏地选中，减小初始化对实验结果的扰动。

要点4｜Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction（MTP）机制，既得到了 Speculative Decoding 接受率较高的 MTP 模块，又提升了主干本身的综合性能。

Qwen3-Next 还特别优化了 MTP 多步推理性能，通过训练推理一致的多步训练，进一步提高了实用场景下的 Seculative Decoding 接受率。

训练效率及推理效率的秘诀

Qwen3-Next 采用的是 Qwen3 36T 预训练语料的一个均匀采样子集，仅包含 15T Tokens。

其训练所消耗的 GPU Hours 不到 Qwen3-30A-3B 的 80%；而与 Qwen3-32B 相比，仅需 9.3% 的 GPU 计算资源，即可实现更优的模型性能，展现出极高的训练效率与性价比。

得益于创新的混合模型架构，Qwen3-Next 在推理效率方面表现出显著优势。

与 Qwen3-32B 相比，Qwen3-Next-80B-A3B 在预填充（prefill）阶段展现出卓越的吞吐能力：在 4K Tokens 的上下文长度下，吞吐量接近前者的七倍；当上下文长度超过 32K 时，吞吐提升更达到十倍以上。

在解码（decode）阶段，该模型同样表现优异：在 4K 上下文下实现近四倍的吞吐提升，而在超过 32K 的长上下文场景中，仍能保持十倍以上的吞吐优势。

模型表现

Base 模型

Qwen3-Next-80B-A3B-Base 仅使用十分之一的 Non-Embedding 激活参数，在大多数基准测试中便已超越 Qwen3-32B-Base，且显著优于 Qwen3-30B-A3B，展现出卓越的模型效率与性能优势。

Instruct 模型

Qwen3-Next-80B-A3B-Instruct 显著优于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking，并取得了几乎与 Qwen3-235B-A22B-Instruct-2507 相近的结果。

Qwen3-Next-80B-A3B-Instruct 在 RULER 上所有长度的表现明显优于层数相同、注意力层数更多的 Qwen3-30B-A3B-Instruct-2507，甚至在 256k 范围内都超过了层数更多的 Qwen3-235B-A22B-Instruct-2507，这展示了 Gated DeltaNet 与 Gated Attention 混合模型在长文本情景下的优越性。

Thinking 模型

Qwen3-Next-80B-A3B-Thinking 优于预训练成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking，超过了闭源的模型 Gemini-2.5-Flash-Thinking，并在部分指标上接近了Qwen的最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。

引用

[1] Qwen3-Next: 迈向更极致的训练推理性价比（https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list）
[2] Babilong Benchmark（https://github.com/booydar/babilong）