微信扫码
添加专属顾问
我要投稿
正常的MOE结构,用到了qk norm
全文61页,细节满满,感兴趣的同学可以自己看。这里简单提一些有意思的点~
1B-7BMOE vs 1B / 7B dense起点更高,终点接近或超过7B全量全参dense的效果
更细粒度的专家组合可以得到更好的训练损失,但是收益递减。(这里提到了很多相关的研究,去做预测最优组合)
共享专家会消除模型的灵活性,让性能更差,与一些历史研究不符
确定哪些专家处理每个输入token ,有2种类型
相同的预算下,TC稳定优于EC
专家是从头初始化,还是从MLP复制得到。实验发现只需要几百B的token,从头开始的模型就赶上了复制的结果,从600B token之后优于复制的结果。
使用负载平衡损失也能带来更好的性能
路由z-loss可以提高MoE模型的稳定性和质量。这个辅助损失会惩罚进入门控网络的大logits
预训练的早期阶段路由就达到了饱和状态
训练结束后,通一层的专家之间不存在强协同激活,也就是说不同专家之间几乎没有冗余
专家对于特定领域和词汇的专业化程度区分度还是比较高的。某些专家可能专门处理一些科学相关的,(如arXiv数据集),而其他专家可能更擅长处理编程语言或一般文本。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-28
BrowserBC:克隆人类点击,让一次网页操作转化为所有Agent的能力
2026-06-27
腾讯混元发布 PhoneBuddy:4B 开源手机 Agent,在 AndroidWorld 上超越 Gemini3.1 Pro
2026-06-27
本地部署 Gemma 4 26B QAT 实践记录
2026-06-26
Higress v2.2.3 发布:AI Gateway 能力增强,Gateway API 及其推理扩展持续打磨
2026-06-26
我把自己的知识库系统开源了
2026-06-26
近 8 千 Star!一次性干翻整本 PDF,百度这个 OCR 让文档解析彻底变了天
2026-06-25
谷歌开源 agents-cli:让 AI 助手帮你完成企业级 Agent 从搭建到部署全流程!
2026-06-25
官宣|我们推出了开源版Claude Tag,以及它背后记忆与工具引擎 MFS
2026-04-09
2026-04-03
2026-04-01
2026-03-31
2026-04-18
2026-04-18
2026-03-31
2026-04-02
2026-05-10
2026-06-22
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01