微信扫码
添加专属顾问
我要投稿
字节跳动豆包团队最新研究,UltraMem架构引领大模型推理效率革命! 核心内容: 1. UltraMem架构,推理成本和速度的突破 2. 与传统MoE架构的性能对比分析 3. UltraMem在大规模模型中的应用前景
随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。
在 Transformer 架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着 LLM 规模不断增大,推理成本会急剧增加,速度变慢。
为此,字节跳动豆包大模型 Foundation 团队提出 UltraMem,一种同样将计算和参数解耦的稀疏模型架构,在保证模型效果的前提下解决了推理的访存问题。
实验结果表明,在参数和激活条件相同的情况下,UltraMem 在模型效果上超越了 MoE,并将推理速度提升了 2-6 倍。此外,在常见 batch size 规模下,UltraMem 的访存成本几乎与同计算量的 Dense 模型相当。
目前,该论文已被 ICLR 2025 接收。
Ultra-Sparse Memory Network 论文链接:https://arxiv.org/abs/2411.12364
① 优化模型结构
① 模型性能评估
研究团队在 151M、680M、1.6B 三个尺寸的激活参数上做了广泛实验,其中 MoE、PKM 和 UltraMem 的总稀疏参数保持在激活参数的 12 倍。
如下表所示,可以发现 UltraMem 在 680M、1.6B 上具有显著的效果优势。
随着稀疏参数的增加,UltraMem 的效果和推理速度如何变化?
下图(b)展示了 UltraMem 的效果变化,横轴为稀疏参数和稠密参数的比值,每个颜色的线代表了一种稀疏度。稀疏度定义为 value 的数量 / 每个 token 激活的 value 数量。观察发现,持续增加稀疏参数和 loss 的下降呈对数关系;且稀疏度越小,模型效果越好;但是稀疏度持续降低带来的收益在逐渐饱和。
下图(c)展示了 UltraMem 的推理时间变化,横轴为稀疏参数和稠密参数的比值。观察发现,UltraMem 在持续增加稀疏参数时推理时间几乎不变,反观 MoE 有显著增长的趋势。
② 消融实验
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-14
挑战 Transformer 架构的谷歌最新扩散模型 Gemini Diffusion 系统提示词
2025-06-14
“AI原生”时代:企业数智化转型的分水岭
2025-06-14
多模态RAG的三类图文问答实现方式,你知道多少种?
2025-06-14
新一代文本表征Qwen3-Embedding与排序模型Qwen3-Reranker 部署和替换
2025-06-14
“华强北”围攻AI耳机,未来智能如何突围?
2025-06-14
AI时代如何为企业和个人赋能
2025-06-14
没吃透 Function Calling?难怪你不理解 AI Agent 为何非来不可!
2025-06-14
浅尝一下微软的AutoGen框架
2025-05-29
2025-03-20
2025-03-21
2025-04-11
2025-03-20
2025-03-19
2025-03-20
2025-03-19
2025-03-19
2025-03-19
2025-06-14
2025-06-14
2025-06-14
2025-06-14
2025-06-13
2025-06-13
2025-06-13
2025-06-13