我要投稿

Qwen3 即将推出！

发布日期：2025-03-30 19:35:23 浏览次数： 2147

作者：大卷学长

微信搜一搜，关注“大卷学长”

最近在 huggingface/transformers 的 pr 中看到来自 Qwen3 和 Qwen3MoE 的请求。

原文：https://github.com/huggingface/transformers/pull/36878

浏览代码可以看到这次的更新有：

https://huggingface.co/Qwen/Qwen3-15B-A2B (MOE model)
https://huggingface.co/Qwen/Qwen3-8B-beta
Qwen/Qwen3-0.6B-Base

看来本次针对更新的都是一些小参数的模型，比较期待有一个 30-40B 的 MoE

与传统 MoE 的差异

特性：

路由策略：传统MoE采用全局路由，即所有专家参与计算。Qwen3Moe采用稀疏路由，仅Top-K个专家参与计算。
负载均衡：传统MoE没有显式优化，容易出现专家坍塌。Qwen3Moe集成load_balancing_loss，以惩罚不均衡的情况。
计算复杂度：传统MoE的计算复杂度为O(N×E)，其中N为序列长度，E为专家数。Qwen3Moe的计算复杂度为O(N×K)，其中K为Top-K参数。
动态适应性：传统MoE使用固定频率的RoPE。Qwen3Moe动态调整RoPE频率，属于动态类型。

与 Qwen2.5 的比较

特性：

RoPE类型： Qwen-2.5仅支持静态RoPE。Qwen3Moe支持dynamic、yarn、llama3等多种类型。
稀疏层调度： Qwen-2.5未明确支持。Qwen3Moe通过mlp_only_layers和sparse_step实现灵活控制。
注意力后端： Qwen-2.5仅基础实现。Qwen3Moe集成Flash Attention 2和SDPA加速。
生成缓存管理： Qwen-2.5使用传统KV缓存。Qwen3Moe支持滑动窗口缓存（sliding_window）。
MoE实现： Qwen-2.5未使用MoE。Qwen3Moe实现稀疏MoE + 负载均衡损失。

Qwen3Moe 的优势

特性：

动态 RoPE：支持多种缩放策略，适配长序列和不同硬件。
稀疏 MoE：通过 Top-K 路由和负载均衡损-失，提升模型容量与训练稳定性。
高效注意力：集成 Flash Attention 2 和 SDPA，优化生成速度。
模块化设计：继承并扩展 Llama/Mistral 组件，提升代码可维护性。
生成优化：滑动窗口缓存和动态 KV 更新，降低解码内存占用。

总结

目前在小参数模型中，个人总体使用感觉来说，qwen 模型是首选，特别是此次将要更新的 Qwen3-15B-A2B，15B 总参数量的稀疏 MoE 模型，实际激活参数量为 2B，所以要求的硬件设备资源更低，速度可以更快

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-29

刚刚，OpenAI 再次开源！安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5

2025-10-29

AI本地知识库+智能体系列：手把手教你本地部署 n8n，一键实现自动采集+智能处理！

2025-10-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

OpenAI终于快要上市了，也直面了这23个灵魂拷问。

2025-10-29

保姆级教程：我用Coze干掉了最烦的周报

2025-10-29

维基百科，终结了！马斯克开源版上线，用AI重写「真相」

2025-10-28

腾讯开源Nano Banana，我总结了15种邪修玩法（附提示语）

2025-10-28

牛逼，DeepSeek-OCR 最新免费，引爆文档处理效率的黑科技模型

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

有点东西！Qwen开源会写中文的生图模型Qwen-Image

2025-08-05

DeepSeek-V3.1-Base来了！MoE架构+128K上下文，性能再进化

2025-08-20

重磅开源！通义万相最新模型来了

2025-08-26

阿里AI编程 IDE Qoder 正式发布，BAT 终于凑齐了！

2025-08-22

开源发布！适合中国宝宝的 LangGraph 智能体开发模板！

2025-09-06

一手实测OpenAI新开源的GPT OSS，o1和GPT-4o都要过气了。

2025-08-06

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

DeepSeek-V3.1发布，拿下全球开源第一，确实可以封神了！（附一手实测）

2025-08-22

大家都在问

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

Dify Pre-release版本来了，Dify2.0时代不远了，看看有哪些进步？

2025-09-09

Claude不让用，有哪些国产模型能迎头赶上？

2025-09-08

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB