微信扫码
添加专属顾问
我要投稿
DeepSeek 突破性创新:用“查字典”代替死记硬背,释放大模型推理潜能!告别昂贵GPU算力,CPU也能玩转无限知识库。 核心内容: 1. Engram架构核心原理:用向量表存储固定知识,实现高效检索 2. 对比实验数据:同等参数下显著提升知识与推理能力 3. 行业影响:预示大模型从纯计算转向"计算+记忆"混合架构
DeepSeek 凌晨又搞事情了。
这一次,不是发布新的 V4 模型,也不是开源某个 100B 的权重,而是直接对 Transformer 的底层架构“动刀”了。
DeepSeek 开源了名为 Engram 的新架构,并附带了一篇信息量极大的论文《Conditional Memory via Scalable Lookup》。
简单来说,他们给 Transformer 加了一个 “查字典” 的能力。
长期以来,我们的大模型都在“死记硬背”。无论是历史知识还是固定搭配,模型都需要消耗珍贵的计算资源(Attention 和 FFN)去“算”出来。
DeepSeek 提出的问题很犀利:既然有些东西是死的(比如“中华人民共和国”这个固定词组),为什么非要用神经网络去“推理”它?直接查表不行吗?
于是,Engram 诞生了。这可能预示着大模型架构的一个新方向:从“纯计算”走向“计算+记忆”的混合体。
想象一下,你正在做一道复杂的数学题。但是,你的大脑不仅要处理逻辑运算,还要同时在脑子里默写一遍《新华字典》。
这就是现在 Transformer 的处境。
论文中举了一个非常直观的例子:当模型需要输出 "Diana, Princess of Wales"(戴安娜王妃)这个实体时,它需要消耗整整 6 层神经网络:
这简直是“杀鸡用牛刀”。对于这种固定的、静态的知识,动用昂贵的 GPU 算力去层层推导,极其浪费。
DeepSeek 的思路是:把“死记硬背”的工作交给“字典”(Engram),把“大脑”(Transformer)腾出来处理真正的逻辑推理。
Engram 的核心机制其实非常复古——它复活了经典的 N-gram(N元组) 概念,但用了现代化的手段。
它的工作原理可以简化为三步:
这就好比考试的时候,允许模型带一本“小抄”。遇到死记硬背的知识点,直接看小抄;遇到需要分析的题目,再动脑子。
你可能会觉得:加个字典,无非就是让模型背书更厉害呗?
DeepSeek 的论文结果让人大吃一惊:Engram 不仅提升了知识类任务的效果,还大幅提升了推理能力!
在同等参数量(27B)和同等计算量(Iso-FLOPs)的对比下,DeepSeek 比较了标准的 MoE(混合专家模型)和 Engram 模型:
为什么查字典能提高数学成绩?
论文给出了极具洞察力的解释:LogitLens 分析显示,Engram 让模型在更浅的层数就完成了“特征组合”。
也就是说,因为不需要在底层网络里浪费时间去拼凑“单词”和“短语”,深层网络的“脑容量”被释放了出来,可以专注于处理更复杂的逻辑和长距离的依赖关系。
这也解释了为什么 Engram 在长上下文(Long Context)任务上表现极佳——把局部依赖交给了字典,Attention 就可以专心看全局了。
DeepSeek 的工程能力一向是业界的标杆,这次也不例外。
大模型最贵的资源是什么?是 GPU 的显存(HBM)。如果我们要存一个巨大的 N-gram 字典,显存爆了怎么办?
Engram 的设计非常精妙,它是确定性查表(Deterministic Lookup)。
与 MoE 这种“走到哪步算哪步”的动态路由不同,Engram 在拿到输入文本的一瞬间,就知道需要查哪些表。
这就意味着:我们可以把这个巨大的字典存放在便宜的 CPU 内存(DRAM)里!
当 GPU 还在计算第 1 层网络的时候,系统就已经通过 PCIe 带宽,把第 10 层需要用到的“字典条目”从 CPU 内存预取(Prefetch)过来了。
DeepSeek 实测:即使外挂一个 100B(一千亿)参数 的超大字典,对推理速度的影响也微乎其微(小于 3%)。
这是什么概念?这意味着未来的模型,可以用极低的成本,通过堆 CPU 内存来无限扩展“知识库”,而不需要堆昂贵的 H100 显卡。
在 Github 已开源
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-13
让我很兴奋...Claude Cowork 自动化办公首测
2026-01-13
ISON:比JSON节省70% token的数据格式,专为LLM设计
2026-01-13
别再造Agent了!关于Agent Skills的详细总结来了
2026-01-13
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
2026-01-13
Anthropic 万字长文:AI Agent 评估体系全解析
2026-01-13
Claude 的新功能 Cowork:让 AI 真正帮你干活
2026-01-13
Claude Cowork 重磅发布:整理文件、做表格、写报告,全包!
2026-01-13
Google 宣布将 Opal 集成进 Gemini Gem里 现在你可以在 “Gems 管理器”中直接使用Opal开发应用
2025-10-26
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-21
2025-11-03
2025-10-23
2025-10-22
2025-10-20
2026-01-12
2026-01-12
2026-01-11
2026-01-10
2026-01-10
2026-01-08
2026-01-02
2025-12-31