微信扫码
添加专属顾问
我要投稿
DeepSeek-V4如何通过Engram架构创新突破算力限制?揭秘中国AI模型的效率革命。核心内容: 1. DeepSeek-V4的Engram技术如何实现"条件记忆" 2. 稀疏化架构在提升训练与推理效率上的突破 3. 国产算力基础设施下的模型性能优化实践
随着开年DeepSeek加快了技术分享的节奏,市场再次期待DeepSeek-V4的横空出世。不少人推测,它可能会在春节前后亮相。但与推出的时间相比,更大的悬念是,它将以何种程度的创新,将中国与美国在前沿模型的差距缩短到什么程度?它是否会基于中国的算力基础设施来实现这一跨越。
全球对前沿模型的探索,仍在寻找下一条行之有效的扩展路径。DeepSeek也是如此。长期以来,它对此的探索主线,一直都是如何在有限的资源下通过架构创新,最大程度上地提升训练与推理的效率。这既是一个数学问题,也是一个工程问题。
过往论文正在揭示它的大致模样。从V3到V3.1再到V3.2,DeepSeek先后尝试了UE8M0 FP8、DSA、上下文光学压缩、mHC与Engram。它们的核心思路之一就是“稀疏化”,让“专家”、“精度”、“注意力”与“记忆”变得更为稀疏。法国AI研究实验室Pleias联合创始人Alexander Doria认为,DeepSeek-V4将是死磕“层效率”的典范,让每一层神经网络在架构中发挥最大的效率。
DeepSeek最新的尝试是Engram。它所要解决的正是“记忆”负担的稀疏化,以推动模型规模继续扩展。标准的Transformer架构缺乏原生的“记忆能力”,它根据概率预测下一个token,根据全局上下文进行复杂推理,消耗了多个早期注意力层和前馈网络,浪费宝贵的资源去计算那些原本只需要简单检索的东西。
如果说MoE是“条件计算”,通过路由器选择稀疏性的激活少数几个专家,在不显著增加计算成本的前提下,大幅增加模型规模;那么,Engram就是“条件记忆”,通过稀疏查表操作,为固定知识检索静态嵌入。DeepSeek的论文将MoE与Engram称为“互补性稀疏维度”。
在Engram的帮助下,那些频繁访问的内容,可以缓存在HBM等更快的存储层级中,而长尾的低频内容则可以存放在SSD等速度较慢但容量更大的介质中。不过,与以往的RAG不同,Engram仍然是模型内部的参数化记忆,它必须参与预训练,并直接集成到模型层中。当将1000亿参数的Engram表,完全卸载到DRAM等内存中,端到端吞吐量下降不到3%。
于是,“内存”与“计算”解耦了。而且这卓有成效。DeepSeek团队发现,当大约20%至25%的参数预算分配给Engram时,模型性能最佳。在相同的激活参数与训练token数量等条件下,Engram-27B的整体性能就要明显优于纯粹的稀疏模型MoE-27B。
而且,研发团队还发现,由于将大量计算资源“让”给了复杂推理,它不仅在知识密集型任务上表现出色,而且在通用推理能力以及代码与数学推理任务上同样表现出色。同时,它释放了注意力机制的容量,也提升了长上下文检索能力。或许,法律、金融与医疗等“记忆密集”的垂直领域,将迎来更少幻觉与更强推理的模型应用。
这对于国产算力基础设施而言,也是一个好消息。Engram有效绕过了GPU的HBM限制,为激进的参数扩展铺平了道路。论文最后写道,“条件记忆将成为下一代稀疏大模型中不可或缺的基础建模范式”。
这已经不是DeepSeek第一次在论文中勾勒下一代模型的设计蓝图。几乎其所有研究工作,都围绕着架构层面的创新展开。许多问题也许早已被其他AI实验室提出,甚至被反复尝试却无疾而终,而DeepSeek选择将这些被搁置的方向重新拾起,在工程与数学层面加以重构与优化,借此持续缩小与美国前沿模型之间的差距。这些探索共同指向的是稳定而有效扩展的模型架构的实现路径。
最近的一次是跨年期间发布的流形约束超连接(mHC)。尽管超级连接(Hyper-Connections)可以为大模型训练带来非常快的收敛速度,某些设置下提升接近80%。但它缺乏扩展的稳定性,模型越大、层数越多,问题越严重。mHC可以确保每一层的计算仍然能稳定地转化为有效表示。DeepSeek在论文中写道,它“为大模型基础架构的演进指明有前景的方向”。
再一次则是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光学压缩”(Context Optical Compression),显著提高了信息密度与计算效率,当时团队就思考过通过逐级压缩信息,直至边际遗忘,或内化为更深层的表征。在论文的最后,DeepSeek团队致辞说,这一思路“为构建一种理论上无限上下文长度的模型架构(unlimited context architectures)提供了新的可能”。
早更一点,DeepSeek-V3.2-Exp最核心的实验则是引入了名为DSA的新架构,这是探索细粒度稀疏机制,成本更低的同时几乎不影响模型的输出效果。DeepSeek官方将DSA称为迈向下一代架构的“中间步骤”。这似乎在暗示下一次更新可能直接出现在V4上。
要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模态能力。代码与数学,多模态与自然语言本身,三者正是DeepSeek创始人梁文锋押注的三个方向。在上一个跨年之交发布统一多模态理解与生成的自回归框架Janus后,DeepSeek在这领域鲜少动作,它会成为下一代核心模型的一部分吗?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-15
今天,千问能直接订票、点外卖了!既能聊天,也会办事的 AI 生活助理来了
2026-01-14
Claude Cowork 架构拆解:VM 隔离、MCP 与 Agentic 循环
2026-01-14
Anthropic Cowork 技术解析:当 AI Agent 从终端走向桌面
2026-01-14
其实一台VPS就是最好的 Claude Agent Container
2026-01-14
不会封号的Claude Code使用方法!已稳定测试一个月,还能共享给团队。
2026-01-13
让我很兴奋...Claude Cowork 自动化办公首测
2026-01-13
ISON:比JSON节省70% token的数据格式,专为LLM设计
2026-01-13
别再造Agent了!关于Agent Skills的详细总结来了
2025-10-26
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-21
2025-11-03
2025-10-23
2025-10-22
2025-10-20
2026-01-12
2026-01-12
2026-01-11
2026-01-10
2026-01-10
2026-01-08
2026-01-02
2025-12-31