我要投稿

OLMoE，首个“完全开源”MOE模型，干货满满

发布日期：2024-09-12 17:29:13 浏览次数： 2445

作者：NLP前沿

微信搜一搜，关注“NLP前沿”

正常的MOE结构，用到了qk norm

全文61页，细节满满，感兴趣的同学可以自己看。这里简单提一些有意思的点~

1B-7BMOE vs 1B / 7B dense起点更高，终点接近或超过7B全量全参dense的效果

更细粒度的专家组合可以得到更好的训练损失，但是收益递减。（这里提到了很多相关的研究，去做预测最优组合）

共享专家会消除模型的灵活性，让性能更差，与一些历史研究不符

确定哪些专家处理每个输入token ，有2种类型

EC，每个专家从输入序列中选择固定数量的token。(确保完美的负载平衡，但是不利于自回归的生成模式，也可能导致token丢失)
TC，每个token会选择固定数量的专家。）这可能会导致许多token选择同一位专家，从而损害训练效率）

相同的预算下，TC稳定优于EC

专家是从头初始化，还是从MLP复制得到。实验发现只需要几百B的token，从头开始的模型就赶上了复制的结果，从600B token之后优于复制的结果。

使用负载平衡损失也能带来更好的性能

路由z-loss可以提高MoE模型的稳定性和质量。这个辅助损失会惩罚进入门控网络的大logits

预训练的早期阶段路由就达到了饱和状态

训练结束后，通一层的专家之间不存在强协同激活，也就是说不同专家之间几乎没有冗余

专家对于特定领域和词汇的专业化程度区分度还是比较高的。某些专家可能专门处理一些科学相关的，（如arXiv数据集），而其他专家可能更擅长处理编程语言或一般文本。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-11

后发先至，新模型发布，全球进入DeepSeek狂欢周，连珠炮响了！

2026-02-11

Agent “案底”可追溯：前 GitHub CEO 再创业，把思考过程写进 Git

2026-02-11

GitHub 上狂揽 1.3 万 Star！港大开源的轻量版 Clawdbot。

2026-02-11

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

从Manus到Clawdbot：被动到主动，满足供给到提供需求

2026-02-11

“AI 女友”也能开源？基于 OpenClaw 的「AI 女友 Clawra」破圈了，还能发自拍！

2026-02-11

Google 悄悄开源了一个「数据提取神器」，3 行代码干掉你 500 行正则

2026-02-11

云上OpenClaw的5种正确打开方式，光联网做日报就落后N个版本了

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部