微信扫码
添加专属顾问
我要投稿
谷歌DeepMind联手顶尖研究机构推出革命性架构MoR,彻底改变AI模型的计算方式,速度翻倍且内存减半! 核心内容: 1. 传统Transformer架构的低效问题与计算浪费 2. MoR架构的双重创新:递归模块与智能路由机制 3. 新技术带来的性能突破与行业影响
它实现了 2 倍的推理速度,内存使用降低一半,彻底重新思考了 AI 模型“思考”的方式。
这不仅仅是一次更新……而是一场革命。 好了,科技圈请注意。偶尔会有那么一篇研究论文,不是那种渐进式的改进,而是可能带来维度跃迁的突破。谷歌 DeepMind(联手 KAIST AI 和 Mila 的研究人员)刚刚发布了一篇这样的论文,叫做Mixture-of-Recursions:学习动态递归深度以实现自适应的 Token 级计算[1],它有可能成为 Transformer 的终结者。我知道,这说法挺大胆。但请耐心听我讲。这真是一篇值得认真解读的有趣论文。
Transformer 不过是被美化的蛮力机器
这几年,实现更强 AI 的路线非常简单粗暴:做得更大。从 ChatGPT 到 Gemini,所有这些都基于 Transformer 架构,这就是“大即是好”的最佳体现。 但这座“大厦”却建立在惊人低效的基础上。
想象一下,标准 Transformer 就像一栋 32 层的摩天大楼,每个员工——无论职位多么不同——每天都得挨个走完这 32 层。
跑去买咖啡的实习生?全跑 32 层。 做出数十亿美元决策的 CEO?也全跑 32 层。
这导致两个巨大的、不可持续的问题:
多年来,我们尝试用量化、剪枝、专用缓存等技巧来修补,但这些都是给根本设计缺陷贴的创可贴。我们一直在努力让摩天大楼更节能,但真正需要的是一张全新的蓝图。
“智能外包”解决方案
Mixture-of-Recursions(MoR)架构不仅仅是修补旧楼,而是拆掉它,重建一个更智能的结构。它用两个巧妙的动作直击根源问题。
MoR 没有造 32 层昂贵的楼,而只建了一个高效的“递归模块”,就像一个由多才多艺专家组成的精英团队所在的单层楼。一个任务(token)进来后,会被送到这一层。如果任务复杂,需要更多处理,不会跑去别的楼层,而是被送回同一团队再加工一轮,这就是递归。这大幅减少了模型的独立参数数量,让模型更小、更节省内存。但真正的巧妙在于如何决定哪些 token 需要更多“回合”。
MoR 引入了一个小巧轻便的“路由器”,就像一个智能门卫或项目经理,负责动态决定每个 token 的递归深度。像“and”这样的简单功能词,路由器说:“你只跑一遍,完事,出去吧。” 而“光合作用”(photosynthesis)这种复杂、高价值名词,路由器会说:“你重要,需要多想几遍,跑三遍。”模型因此把最宝贵的计算资源,按 token 动态分配,真正实现了按需“外包”脑力。这种自适应计算被直接内嵌在架构 DNA 中。
对机器学习爱好者来说,细节更精彩。论文探讨了两种路由和缓存的实现方式,各有权衡:
实验发现,专家选择结合线性路由器和辅助损失,效果最好,说明研究团队在实际应用上下了很大功夫。
这体现了经典工程权衡:性能最大化与效率最大化的取舍。MoR 提供了选项,这本身就是强大优势。
对 Transformer 来说尤为残酷
理论说完,实际效果如何?论文用了“isoFLOP”测试,意思是给不同引擎同样燃油,看看谁跑得更远。
这不只是胜利,而是战略转变。多年来,AI 竞争像重量级拳击,靠蛮力拼杀。MoR 把比赛变成了功夫竞技,靠精准和效率取胜。它指向未来:不用每次升级 AI 都需要庞大数字基础设施,而是能造出自然高效、能力更强的模型。
此外,论文暗示了潜在推理的概念:递归循环就像模型内部的“思考链”,让它能对复杂 token 多步“深思”,朝着不仅预测,而是推理的模型迈进了一步。
它真的是“终结者”了吗?
先稍微冷静一下,论文也坦诚局限。实验只涉及最多 17 亿参数的模型。真正的考验是当扩展到目前主流的 700 亿、1800 亿甚至更大模型时,这些惊人成果是否依然有效。不过,论文的趋势非常乐观。MoR 与 Transformer 的性能差距随模型变大而扩大,表明这架构本质上更具可扩展性。
那么,传统 Transformer 真到了末路吗?可能明天还不会,但种子已经种下,而且是个食人花。MoR 提供了一条更智能、更便宜、更快速的未来之路。这个论点很难反驳。这会是一篇未来几年持续被讨论的重要论文。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-13
求求你,别再瞎喷GPT5了!这才是榨干它全部性能的方法!
2025-08-13
苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
2025-08-12
看大神在Claude Code里的全局配置文件来定义他的个人品味,可参考
2025-08-12
GPT-5 不是技术新范式,是 OpenAI 加速产品化的战略拐点
2025-08-12
GPT-5 vs Claude Opus 4.1:编程能力测评
2025-08-12
刚刚,Claude 推出记忆功能,比ChatGPT 好用
2025-08-12
大模型背后的“新搜索”生意,水有多深
2025-08-12
在Claude Code使用子agent的最优解
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-05-20
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-10
2025-08-09