微信扫码
添加专属顾问
我要投稿
字节跳动豆包团队最新研究,UltraMem架构引领大模型推理效率革命! 核心内容: 1. UltraMem架构,推理成本和速度的突破 2. 与传统MoE架构的性能对比分析 3. UltraMem在大规模模型中的应用前景
随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。
在 Transformer 架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着 LLM 规模不断增大,推理成本会急剧增加,速度变慢。
为此,字节跳动豆包大模型 Foundation 团队提出 UltraMem,一种同样将计算和参数解耦的稀疏模型架构,在保证模型效果的前提下解决了推理的访存问题。
实验结果表明,在参数和激活条件相同的情况下,UltraMem 在模型效果上超越了 MoE,并将推理速度提升了 2-6 倍。此外,在常见 batch size 规模下,UltraMem 的访存成本几乎与同计算量的 Dense 模型相当。
目前,该论文已被 ICLR 2025 接收。
Ultra-Sparse Memory Network 论文链接:https://arxiv.org/abs/2411.12364
① 优化模型结构
① 模型性能评估
研究团队在 151M、680M、1.6B 三个尺寸的激活参数上做了广泛实验,其中 MoE、PKM 和 UltraMem 的总稀疏参数保持在激活参数的 12 倍。
如下表所示,可以发现 UltraMem 在 680M、1.6B 上具有显著的效果优势。
随着稀疏参数的增加,UltraMem 的效果和推理速度如何变化?
下图(b)展示了 UltraMem 的效果变化,横轴为稀疏参数和稠密参数的比值,每个颜色的线代表了一种稀疏度。稀疏度定义为 value 的数量 / 每个 token 激活的 value 数量。观察发现,持续增加稀疏参数和 loss 的下降呈对数关系;且稀疏度越小,模型效果越好;但是稀疏度持续降低带来的收益在逐渐饱和。
下图(c)展示了 UltraMem 的推理时间变化,横轴为稀疏参数和稠密参数的比值。观察发现,UltraMem 在持续增加稀疏参数时推理时间几乎不变,反观 MoE 有显著增长的趋势。
② 消融实验
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-26
Claude Code 太烧钱了?我用这 5 招,把 token 成本砍了一半!
2026-03-26
治愈 Cursor AI 编程的 “幻觉”?用它就够了!
2026-03-26
Anthropic官方复盘Claude Code:智能体系统设计的四个核心
2026-03-26
Claude Code auto mode 解析:如何用 AI 分类器替代人工审批
2026-03-26
Google 最新极限压缩算法,砸碎大模型本地部署的内存墙,8 倍提升!
2026-03-26
Google 发了个压缩算法,内存砍 6 倍,速度快 8 倍,精度零损失
2026-03-26
Claude团队深夜祭出“自动模式”!网友看呆了:CC里程碑式进化!无人值班确实上头,但一周的token很快燃尽
2026-03-25
如何设计 Harness 工程,实现长时间自动开发应用
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2025-12-30
2026-01-14
2026-01-21
2026-03-22
2026-03-22
2026-03-21
2026-03-20
2026-03-19
2026-03-19
2026-03-19
2026-03-18