免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


告别巨型Transformer,谷歌DeepMind全新架构横空出世!

发布日期:2025-08-12 08:30:39 浏览次数: 1520
作者:AgenticAI

微信搜一搜,关注“AgenticAI”

推荐语

谷歌DeepMind联手顶尖研究机构推出革命性架构MoR,彻底改变AI模型的计算方式,速度翻倍且内存减半!

核心内容:
1. 传统Transformer架构的低效问题与计算浪费
2. MoR架构的双重创新:递归模块与智能路由机制
3. 新技术带来的性能突破与行业影响

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

它实现了 2 倍的推理速度,内存使用降低一半,彻底重新思考了 AI 模型“思考”的方式。

这不仅仅是一次更新……而是一场革命。 好了,科技圈请注意。偶尔会有那么一篇研究论文,不是那种渐进式的改进,而是可能带来维度跃迁的突破。谷歌 DeepMind(联手 KAIST AI 和 Mila 的研究人员)刚刚发布了一篇这样的论文,叫做Mixture-of-Recursions:学习动态递归深度以实现自适应的 Token 级计算[1],它有可能成为 Transformer 的终结者。我知道,这说法挺大胆。但请耐心听我讲。这真是一篇值得认真解读的有趣论文。

1. 问题所在

Transformer 不过是被美化的蛮力机器

这几年,实现更强 AI 的路线非常简单粗暴:做得更大。从 ChatGPT 到 Gemini,所有这些都基于 Transformer 架构,这就是“大即是好”的最佳体现。 但这座“大厦”却建立在惊人低效的基础上。

想象一下,标准 Transformer 就像一栋 32 层的摩天大楼,每个员工——无论职位多么不同——每天都得挨个走完这 32 层。

跑去买咖啡的实习生?全跑 32 层。 做出数十亿美元决策的 CEO?也全跑 32 层。

这导致两个巨大的、不可持续的问题:

  • 惊人的计算浪费:这简直是傻瓜操作。模型处理简单词汇如“the”,“and”,“is”的计算深度和处理“认识论”(epistemology)或者“超导”(superconductivity)这种复杂词汇是一模一样的,浪费了大量能量。
  • KV 缓存噩梦:这才是真正的瓶颈。推理时,模型必须保存每个 token 在每层的 key-value 缓存,这个缓存呈二次方增长,占用了大量 GPU 内存。这是大模型运行代价巨大的最大原因,也是扩展上下文窗口面临的最大工程难题。

多年来,我们尝试用量化、剪枝、专用缓存等技巧来修补,但这些都是给根本设计缺陷贴的创可贴。我们一直在努力让摩天大楼更节能,但真正需要的是一张全新的蓝图。

2. 进入 MoR

“智能外包”解决方案

Mixture-of-Recursions(MoR)架构不仅仅是修补旧楼,而是拆掉它,重建一个更智能的结构。它用两个巧妙的动作直击根源问题。

  • 动作一:递归技巧(建造完美的单层)

MoR 没有造 32 层昂贵的楼,而只建了一个高效的“递归模块”,就像一个由多才多艺专家组成的精英团队所在的单层楼。一个任务(token)进来后,会被送到这一层。如果任务复杂,需要更多处理,不会跑去别的楼层,而是被送回同一团队再加工一轮,这就是递归。这大幅减少了模型的独立参数数量,让模型更小、更节省内存。但真正的巧妙在于如何决定哪些 token 需要更多“回合”。

  • 动作二:混合魔法(雇一个聪明的门卫)

MoR 引入了一个小巧轻便的“路由器”,就像一个智能门卫或项目经理,负责动态决定每个 token 的递归深度。像“and”这样的简单功能词,路由器说:“你只跑一遍,完事,出去吧。” 而“光合作用”(photosynthesis)这种复杂、高价值名词,路由器会说:“你重要,需要多想几遍,跑三遍。”模型因此把最宝贵的计算资源,按 token 动态分配,真正实现了按需“外包”脑力。这种自适应计算被直接内嵌在架构 DNA 中。

None

3. 深入细节:底层工程

对机器学习爱好者来说,细节更精彩。论文探讨了两种路由和缓存的实现方式,各有权衡:

3. 1. 两种路由风格:谁来掌控?

  • 专家选择(Expert-Choice):把每个递归深度当作“专家”,比如“深度 3 专家”会选取最复杂的 10% token。优点是计算量固定无惊喜,但训练时会有“看到未来”的问题,研究者通过辅助损失解决了。
  • Token 选择(Token-Choice):每个 token 自己决定要几层递归,更灵活,但可能导致“负载不均”,比如所有 token 都想跑三遍,容易塞车。

实验发现,专家选择结合线性路由器和辅助损失,效果最好,说明研究团队在实际应用上下了很大功夫。

image-20250811215205617

3. 2. 缓存内存奇迹:两种 KV 缓存方案

  • 递归内缓存:只有当前递归循环活跃的 token 能互相访问缓存,已退出的 token 被忽略,极大降低内存和计算。
  • 递归共享缓存:极限节省内存的方案,所有递归循环复用第一次的缓存,效率最高,适合预填充场景,但路由特别精准时性能可能略降。

这体现了经典工程权衡:性能最大化与效率最大化的取舍。MoR 提供了选项,这本身就是强大优势。

4. 结果令人震惊

对 Transformer 来说尤为残酷

理论说完,实际效果如何?论文用了“isoFLOP”测试,意思是给不同引擎同样燃油,看看谁跑得更远。

  • MoR 跑得更远、更快:从 1.35 亿到 17 亿参数规模,MoR 架构持续超越标准递归模型。更疯狂的是,在大模型上,它不仅追上 Transformer,有时甚至超越,尤其是在算力受限时。
image-20250811215348827
  • 打破扩展定律:MoR 创造了新的帕累托前沿,打破速度、成本和准确率的传统权衡。167M 参数的 MoR 模型比 315M 的 Transformer 准确率更高,且速度更快。
  • 超高速表现:更小的模型、更智能的计算和更小的 KV 缓存组合,实现了 2.06 倍的吞吐率提升。同硬件下文本生成速度翻倍。
image-20250811215446090

5. 这到底意味着什么?

这不只是胜利,而是战略转变。多年来,AI 竞争像重量级拳击,靠蛮力拼杀。MoR 把比赛变成了功夫竞技,靠精准和效率取胜。它指向未来:不用每次升级 AI 都需要庞大数字基础设施,而是能造出自然高效、能力更强的模型。

此外,论文暗示了潜在推理的概念:递归循环就像模型内部的“思考链”,让它能对复杂 token 多步“深思”,朝着不仅预测,而是推理的模型迈进了一步。

6. 细节说明

它真的是“终结者”了吗?

先稍微冷静一下,论文也坦诚局限。实验只涉及最多 17 亿参数的模型。真正的考验是当扩展到目前主流的 700 亿、1800 亿甚至更大模型时,这些惊人成果是否依然有效。不过,论文的趋势非常乐观。MoR 与 Transformer 的性能差距随模型变大而扩大,表明这架构本质上更具可扩展性。

那么,传统 Transformer 真到了末路吗?可能明天还不会,但种子已经种下,而且是个食人花。MoR 提供了一条更智能、更便宜、更快速的未来之路。这个论点很难反驳。这会是一篇未来几年持续被讨论的重要论文。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询