我要投稿

从DSA到Engram，一年来DeepSeek层层勾勒V4架构创新

发布日期：2026-01-15 10:33:00 浏览次数： 2014

作者：未尽研究

微信搜一搜，关注“未尽研究”

随着开年DeepSeek加快了技术分享的节奏，市场再次期待DeepSeek-V4的横空出世。不少人推测，它可能会在春节前后亮相。但与推出的时间相比，更大的悬念是，它将以何种程度的创新，将中国与美国在前沿模型的差距缩短到什么程度？它是否会基于中国的算力基础设施来实现这一跨越。

全球对前沿模型的探索，仍在寻找下一条行之有效的扩展路径。DeepSeek也是如此。长期以来，它对此的探索主线，一直都是如何在有限的资源下通过架构创新，最大程度上地提升训练与推理的效率。这既是一个数学问题，也是一个工程问题。

过往论文正在揭示它的大致模样。从V3到V3.1再到V3.2，DeepSeek先后尝试了UE8M0 FP8、DSA、上下文光学压缩、mHC与Engram。它们的核心思路之一就是“稀疏化”，让“专家”、“精度”、“注意力”与“记忆”变得更为稀疏。法国AI研究实验室Pleias联合创始人Alexander Doria认为，DeepSeek-V4将是死磕“层效率”的典范，让每一层神经网络在架构中发挥最大的效率。

DeepSeek最新的尝试是Engram。它所要解决的正是“记忆”负担的稀疏化，以推动模型规模继续扩展。标准的Transformer架构缺乏原生的“记忆能力”，它根据概率预测下一个token，根据全局上下文进行复杂推理，消耗了多个早期注意力层和前馈网络，浪费宝贵的资源去计算那些原本只需要简单检索的东西。

如果说MoE是“条件计算”，通过路由器选择稀疏性的激活少数几个专家，在不显著增加计算成本的前提下，大幅增加模型规模；那么，Engram就是“条件记忆”，通过稀疏查表操作，为固定知识检索静态嵌入。DeepSeek的论文将MoE与Engram称为“互补性稀疏维度”。

在Engram的帮助下，那些频繁访问的内容，可以缓存在HBM等更快的存储层级中，而长尾的低频内容则可以存放在SSD等速度较慢但容量更大的介质中。不过，与以往的RAG不同，Engram仍然是模型内部的参数化记忆，它必须参与预训练，并直接集成到模型层中。当将1000亿参数的Engram表，完全卸载到DRAM等内存中，端到端吞吐量下降不到3%。

于是，“内存”与“计算”解耦了。而且这卓有成效。DeepSeek团队发现，当大约20%至25%的参数预算分配给Engram时，模型性能最佳。在相同的激活参数与训练token数量等条件下，Engram-27B的整体性能就要明显优于纯粹的稀疏模型MoE-27B。

而且，研发团队还发现，由于将大量计算资源“让”给了复杂推理，它不仅在知识密集型任务上表现出色，而且在通用推理能力以及代码与数学推理任务上同样表现出色。同时，它释放了注意力机制的容量，也提升了长上下文检索能力。或许，法律、金融与医疗等“记忆密集”的垂直领域，将迎来更少幻觉与更强推理的模型应用。

文本

AI 生成的内容可能不正确。

这对于国产算力基础设施而言，也是一个好消息。Engram有效绕过了GPU的HBM限制，为激进的参数扩展铺平了道路。论文最后写道，“条件记忆将成为下一代稀疏大模型中不可或缺的基础建模范式”。

这已经不是DeepSeek第一次在论文中勾勒下一代模型的设计蓝图。几乎其所有研究工作，都围绕着架构层面的创新展开。许多问题也许早已被其他AI实验室提出，甚至被反复尝试却无疾而终，而DeepSeek选择将这些被搁置的方向重新拾起，在工程与数学层面加以重构与优化，借此持续缩小与美国前沿模型之间的差距。这些探索共同指向的是稳定而有效扩展的模型架构的实现路径。

最近的一次是跨年期间发布的流形约束超连接（mHC）。尽管超级连接(Hyper-Connections）可以为大模型训练带来非常快的收敛速度，某些设置下提升接近80%。但它缺乏扩展的稳定性，模型越大、层数越多，问题越严重。mHC可以确保每一层的计算仍然能稳定地转化为有效表示。DeepSeek在论文中写道，它“为大模型基础架构的演进指明有前景的方向”。

再一次则是去年10月，DeepSeek提出了DeepSeek-OCR模型，概念核心是“上下文光学压缩”（Context Optical Compression），显著提高了信息密度与计算效率，当时团队就思考过通过逐级压缩信息，直至边际遗忘，或内化为更深层的表征。在论文的最后，DeepSeek团队致辞说，这一思路“为构建一种理论上无限上下文长度的模型架构(unlimited context architectures)提供了新的可能”。

早更一点，DeepSeek-V3.2-Exp最核心的实验则是引入了名为DSA的新架构，这是探索细粒度稀疏机制，成本更低的同时几乎不影响模型的输出效果。DeepSeek官方将DSA称为迈向下一代架构的“中间步骤”。这似乎在暗示下一次更新可能直接出现在V4上。

要真正追平乃至超越Gemini-3，DeepSeek仍然需要提升模型的多模态能力。代码与数学，多模态与自然语言本身，三者正是DeepSeek创始人梁文锋押注的三个方向。在上一个跨年之交发布统一多模态理解与生成的自回归框架Janus后，DeepSeek在这领域鲜少动作，它会成为下一代核心模型的一部分吗？