微信扫码
添加专属顾问
混合专家(MoE)架构,现代人工智能大模型的突破性技术。 核心内容: 1. MoE架构定义及其稀疏激活机制 2. MoE从概念到主流的发展简史 3. MoE在现代大模型中的应用案例分析
混合专家模型(Mixture of Experts,MoE)是一种神经网络架构。它采用条件计算(Conditional Computation)、稀疏激活(Sparse Activation)、门控网络或路由器(Gate Network or Router)和专家网络(Experts Network)进行处理。这种设计使得模型能够拥有比传统架构巨量得多的参数规模,同时在训练和推理时仅需激活其中一小部分。
在标准的密集(Dense)Transformer 模型中,一个关键组件是前馈网络(Feed Forward Network, FFN)。你可以将它想象成模型处理信息流中的一个主要“思考”模块。在密集模型中,这个 FFN 是一个大型的、所有信息都必须通过的模块。
而 MoE 架构的精髓在于,它用一套不同的结构取代了这个单一的大FFN 模块。这套新结构包含一个“路由器”(Router)或称选择层,以及多个 FFN的副本,我们称之为“专家”(Experts)。这些专家通常是比标准 FFN 稍微小一些的 FFN 模块。
MoE 最关键的特点在于其稀疏激活的机制。在每次模型处理输入(比如一个 token)时,路由器会根据一定的策略,只从众多的专家中选择一小部分(通常是 K 个)来激活,让这些被选中的专家来处理当前的信息。其他未被选中的专家则不参与此次计算。
1)早期探索: MoE 最初被提出用于解决机器学习中的任务划分问题,让不同的模型处理不同的数据子集。
2)稀疏门控 MoE: Shazeer 等人在 2017 年的论文中将稀疏门控机制应用于神经网络,证明了条件计算的可行性和优势,这被认为是现代 MoE 模型的直接先驱。
3)GShard:Google 在2020 年的 GShard 论文中,将 MoE 架构与Transformer 模型结合,成功训练了拥有 6000 亿参数的模型,用于机器翻译任务。GShard 在 Transformer 的 Encoder 和 Decoder 中使用了 Top-2 门控的 MoE 层,验证了 MoE 在超大规模模型上的潜力。论文中提到 GShard 可以实现亚线性扩展,即算力和通信需求增长小于参数量增长,并且支持了数千台机器的并行计算扩展。
4)Switch Transformers:Google在2021年提出的Switch Transformers 进一步推广了 MoE 架构,并开源了高达 1.6 万亿参数和拥有2048个专家的模型,进一步推动了 MoE 架构的研究和应用。
5)开放社区的崛起: 近年来,随着大模型技术的普及,MoE 架构在开源社区也获得了广泛关注和发展。值得一提的是,中国的一些研究机构和公司在 MoE的开放研究和实践中走在了前列。DeepSeek28 和 Qwen28 就是其中的代表。DeepSeek 的研究人员在 MoE 架构设计、训练稳定性、负载均衡等方面进行了深入探索,并将其应用于自己的大型模型中。
这种设计带来了多方面的显著优势:
1)巨大的参数量与可控的计算量:MoE 模型可以包含数百甚至上千个专家,这意味着模型的总参数量可以非常庞大,远超同等计算量的密集模型。理论上,更多的参数有助于模型记忆更丰富的信息。然而,由于每次只激活少数专家,单次前向计算的实际计算量(Flops)却可以保持在一个相对较低的水平。例如,如果每个专家的大小与密集模型的 FFN 相当,且每次只激活一个专家,那么 MoE 模块的计算量与密集模型是相同的。
2)性能提升:大量研究和实际应用表明,在相同的训练计算资源(Flops)投入下,MoE 模型通常比密集模型能达到更好的性能。它们的训练损失下降得更快、更低。
3)参数效率:通过DeepSeek等模型的实验可以看出,MoE模型在激活参数量相对较少的情况下,可以达到与参数总量大得多的模型相当甚至更好的性能。
4)更快的推理速度(相比同等参数规模密集模型):虽然加载所有专家参数需要较高的显存(VRAM),但在实际推理计算时,由于每个token只激活 K 个专家,实际的浮点运算量(FLOPs)远低于同等总参数的密集模型,从而实现了更快的推理速度。
5)天然支持并行化:MoE 提供了一种非常自然的并行训练和推理方式,称为专家并行。由于不同 token 可以被路由到不同专家,而这些专家可以被放置在不同的计算设备(如不同的 GPU)上。路由器只需将 token 发送到其对应的专家所在设备即可。这使得 MoE 非常适合部署在分布式计算环境中。现代硬件和软件库也正积极优化,以高效支持 MoE 的稀疏计算特性。
1)稀疏 MoE 层 (Sparse MoE Layers):这些层用于替代 Transformer 中的密集 FFN 层。每个 MoE 层包含多个“专家”(Experts)。
2)专家 (Experts):每个专家本身通常是一个神经网络,在实践中,它们常常是前馈网络(FFNs),但也可以是更复杂的网络,甚至是嵌套的 MoE 结构。它们负责处理被分配到的 token 数据。DeepSeekMoE 架构采用了更细粒度的专家分割,并且隔离了一些专家作为共享专家。
3)门控网络/路由器 (Gate Network or Router):这是 MoE 的关键部分,它决定了哪些 token 被发送到哪些专家进行处理。路由器通常由可学习的参数组成,并在网络训练时同步训练。它可以看作是一个线性层后接一个 Softmax 或 Sigmoid 函数。
MoE 的处理流程大致如下:
1)Token 输入:一个输入 token 或其隐藏状态进入 MoE 层。
2)路由器计算:门控网络/路由器处理输入的 token,计算该 token 与每个专家之间的“亲和度”或得分。
3)专家选择:基于路由器计算出的亲和度得分,使用一种选择机制来决定激活哪些专家。最常见的方法是 Top-K 路由,即选择得分最高的 K 个专家。K 是一个超参数,通常设置为 1 或 2。
4)数据分派:输入的 token 数据被分派(dispatch)到选定的 K 个专家。在并行计算环境中,这通常涉及跨设备的数据通信(例如 AllToAll 操作)。
5)专家计算:被选中的专家网络处理接收到的 token 数据,生成各自的输出。
6)结果组合:来自选定的 K 个专家的输出被组合起来(通常通过加权求和,权重由门控网络提供)。这个组合后的输出通常会加回到原始的残差连接中。
在 MoE 的训练和推理过程中,还需要考虑几个重要概念:
1)负载均衡 (Load Balancing):为了确保所有专家都被均匀地利用,避免某些专家过载而另一些专家空闲(路由崩溃),会使用各种机制。传统方法通常依赖于辅助损失 (Auxiliary Loss),它鼓励所有专家接收大致相等的训练样本数量。DeepSeek-V3 则提出了一种无辅助损失 (Auxiliary-Loss-Free) 的策略,通过为每个专家引入一个偏置项并在线学习调整来平衡负载。
2)专家容量 (Expert Capacity):为了处理不同 token 分配到专家的数量可能不均衡的情况,可以为每个专家设置一个固定的容量阈值,限制其处理的 token 数量。超过容量的 token 可能被丢弃或通过残差连接绕过专家层。
3)并行计算 (Parallelism):MoE 架构非常适合专家并行 (Expert Parallelism),即将不同的专家放置在不同的计算设备上。这是一种重要的并行策略,有助于扩展模型的总参数量。
一个典型的 MoE 配置(如 DeepSeek V1/V2/V3 的基础设置)可能包含数十个(例如 64 个)细粒度专家和少量(例如 2 个)共享专家,每次计算激活其中的一小部分细粒度专家(例如 6 个)加上所有共享专家,总共激活 8 个专家。这种配置下,虽然总参数量巨大,但每次激活的专家(总共 8 个,每个大小是标准 FFN 的 1/4)使得 MoE 块的计算量大约是等效密集模型同一计算块的两倍。
值得一提的是,有一种称为Upscaling 的技术,它允许研究人员先训练一个普通的密集模型,然后将其 FFN 层复制并微调成 MoE 的专家,再从头训练路由器。这提供了一种成本效益很高的方式来获得 MoE 的性能优势。MiniCPM 和 Qwen 的工作都展示了 Upscaling 的有效性。
MoE 架构虽然优势明显,但也面临一些固有的挑战:
DeepSeek 在其 MoE 模型的研发过程中,不断针对这些挑战进行创新和优化,特别是在架构设计、训练效率和性能提升方面:
1)DeepSeekMoE 架构: 通过结合共享专家和细粒度切分,DeepSeek 构建了更高效和高性能的 MoE 层,超越了传统的 MoE 设计。
2)MLA 提升推理效率: MLA 显著降低了 KV 缓存,是 DeepSeek-V2 和 V3 实现高效推理的关键。
3)负载均衡机制的演进: 从辅助损失到设备/节点限制路由,再到 V3 的无辅助损失策略和冗余专家部署,DeepSeek 在实践中不断探索更稳定和高效的负载均衡方法。
4)训练优化: 采用 FP8 训练、精细的工程优化、Multi-Token Prediction 等技术,使 DeepSeek-V3 即使拥有庞大的总参数量,也能实现经济高效的训练。DeepSeek-V3 的训练过程也非常稳定,未出现不可恢复的损失尖峰或回滚。
5)从 DeepSeek-R1 蒸馏推理能力: DeepSeek-R1 是一个专注于推理能力的模型。DeepSeek 将 DeepSeek-R1 生成的推理数据用于微调 DeepSeek-V3 和其他小型密集模型。事实证明,这种蒸馏技术对于提升模型的数学、代码和推理能力非常有效,尤其是在非 o1 类模型上。DeepSeek-R1 Distill 模型在 AIME 2024 和 MATH-500 等推理基准上取得了优异成绩。DeepSeek-V3 也通过蒸馏显著改进了推理性能。
6)长文本能力: DeepSeek-V2 和 V3 都支持 128K 的长上下文长度。通过 Needle In A HayStack 测试表明,DeepSeek-V2 和 V3 在长达 128K 的上下文长度下表现良好。 DeepSeek-V3 在 DROP, LongBench v2 和 FRAMES 等长上下文理解基准上表现出色。
7)卓越的基准测试表现: DeepSeek-V2 和 DeepSeek-V3 在各种基准测试中都展现出了顶尖的性能。
DeepSeek-V2: 激活参数仅 21B,但在开源模型中性能顶尖。在 MMLU 等基准上激活参数少但排名靠前。在中英文开放式对话基准上表现出色。
DeepSeek-V3: 激活参数 37B,总参数 671B。被评估为当前最强的开源模型,并在教育类知识(MMLU, MMLU-Pro, GPQA Diamond)、事实类(SimpleQA, Chinese SimpleQA)、代码、数学和推理基准上超越了大多数甚至所有其他开源模型。其性能可与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型媲美。在中文基准上尤其强大,例如在 C-Eval 和 CMMLU 等基准上表现优于 Qwen2.5 72B 和 LLaMA-3.1 405B,在 Chinese SimpleQA 上超越了 GPT-4o 和 Claude-Sonnet。
DeepSeek-R1: 在 AIME 2024, GPQA Diamond, MATH-500, MMLU 等推理和知识基准上表现出色,显著优于 DeepSeek-V3,并在某些数学和代码算法任务上与 OpenAI-o1-1217 相当或超越其他模型。在创造性写作、问答、编辑、摘要等多种任务中也表现出色。
这些创新共同构成了 DeepSeek 在 MoE 领域的领先地位,使其能够构建出强大的模型,同时保持训练和推理的效率。
AI科技企业,如DeepSeek继续不断探索 MoE 的未来发展方向:
1)通用能力提升: 探索如何利用长 CoT 等技术提升函数调用、多轮对话、复杂角色扮演和 JSON 输出等方面的能力83。
2)多语言处理优化: 解决 DeepSeek-R1 在处理非中英文查询时可能出现的语言混合问题。
3)Prompt 工程: 针对 MoE 模型对 prompt 敏感的特点,建议用户使用 zero-shot 设置并直接描述问题和指定输出格式以获得最佳结果。
4)软件工程任务优化: 通过改进 RL 训练流程,提升在软件工程基准上的表现。
5)持续的架构研究: 进一步提升训练和推理效率,探索支持无限上下文长度,并突破 Transformer 的架构限制。
6)模型对齐: 持续努力构建更具帮助性、诚实和安全的模型,使模型价值观与人类价值观对齐,同时减少对人工监督的需求。
结语:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-07-01
Sonnet 5终于来了,然而Opus 4.8现在有点尴尬
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。