我要投稿

架构彻底重构！DeepSeek新模型代码曝光，要来的V4让国内外都坐不住了？

发布日期：2026-01-21 12:22:41 浏览次数： 2593

作者：InfoQ

微信搜一搜，关注“InfoQ”

DeepSeek V4 马上要来了？

正值 DeepSeek-R1 发布一周年之际，DeepSeek 的官方 GitHub 代码库意外曝光了代号为“MODEL1”的全新模型线索。

而综合泄露代码片段中呈现的架构调整、硬件优化与全新处理机制来看，“MODEL1”似乎绝非简单的版本迭代，而是一次全方位的架构重构。

此次 DeepSeek 在 GitHub 代码库的提前部署，在时间线上与业内疯传的“其新模型再次在春节期间发布”的消息高度吻合。本月初，也有外媒爆料称，DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4。

1 新模型曝光，代码揭露全新架构能力

近日，DeepSeek 陆陆续续给其在 GitHub 上的 FlashMLA 代码库做了一系列更新。

而刚刚，有开发者发现，114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。而且，在代码逻辑结构中，该标识符与现有模型“V32”（即 DeepSeek-V3.2）是并列且作为独立分支出现的。也就是说，“MODEL1”很可能代表一个不同于现有架构和技术路径的全新模型。

网友们也纷纷猜测，这个“MODEL1”很可能就是 DeepSeek 即将发布的新模型 V4 的内部开发代号或首个工程版本。

根据代码片段中披露的技术规格，这个新模型有重大架构变更，或在 KV Cache（键值缓存）布局、稀疏性处理及 FP8 解码支持等方面改变了策略和机制，还包括参数维度切换至 512 维以及针对英伟达下一代 Blackwell GPU 架构的专项优化。

在 FP8 解码路径上，该模型有多处针对性的内存优化调整。测试脚本中同步新增了 test_flash_mla_sparse_decoding.py 与 test_flash_mla_dense_decoding.py 两个文件，这一改动证实“MODEL1”具备稀疏与稠密计算并行处理的能力。在稀疏化实现方案中，键值缓存存储采用 FP8 精度，而矩阵乘法运算则使用 bfloat16 精度，以此保障计算准确性。这种混合精度设计表明，“MODEL1”通过在推理阶段对部分数据进行选择性稀疏化处理，有效降低内存占用压力，从而具备处理超长上下文窗口的能力。

在 csrc/api/common.h 文件内的代码显示，“MODEL1”的注意力头参数维度被配置为 512 维，与上一代产品 DeepSeek V3.2 采用的 576 维参数设置形成显著差异。这一架构调整意味着，DeepSeek 已对其多头隐式注意力（MLA）结构进行了重新设计。此前的 V3 系列采用非对称设计方案，将 128 维旋转位置编码（RoPE）与 448 维隐层维度相结合。此次转向标准化的 512 维参数配置，或许是为了更好地适配硬件性能，也可能是在隐层压缩率方面实现了技术突破。

代码更新记录还显示，DeepSeek 研发团队已围绕英伟达 Blackwell 架构开展了大量优化工作，预示着 DeepSeek 正为“MODEL1”量身打造下一代硬件适配方案。代码中新增了一批专门面向 Blackwell 指令集的接口，包括 FMHACutlassSM100FwdRun；相关文档明确指出，该模型若要在 B200 GPU 上运行，需依赖 CUDA 12.9 版本环境；内嵌的性能指标数据显示，即便在未完全优化的状态下，稀疏化 MLA 算子在 B200 硬件平台上的运算性能仍可达到 350 万亿次浮点运算每秒（TFLOPS）。在当前主流的 H800 GPU（基于 SM90a 架构）上，稠密型 MLA 算子的吞吐量则能达到 660 万亿次浮点运算每秒。

尽管本次代码提交的内容主要聚焦于算子层面的实现，但调度逻辑中仍提及多项新增功能。从代码仓库的结构可以推断，“MODEL1”集成了价值向量位置感知（VVPA）技术，这项技术有望解决传统 MLA 架构在长文本处理场景下存在的位置信息衰减问题。代码注释中还提到了一种名为 “记忆印记（Engram）机制” 的技术，但在已公开的代码提交记录中，相关实现细节尚不完整。从该机制在分布式处理模块中的部署位置推测，其功能大概率与分布式存储优化或高级键值压缩技术相关，旨在满足“MODEL1”对高吞吐量的性能需求。

前不久，DeepSeek 研究团队刚发布了 Engram 的技术论文。当时，就有业内观察者认为，Engram 模块可能会成为 DeepSeek V4 的重要组成部分，并预示 DeepSeek 下一代模型会在记忆和推理协同上实现架构级提升。

这些优化能够表明，“MODEL1”在推理效率上可能有更好的表现。此前也有爆料称，DeepSeek V4 的代码表现已超越 Claude 和 GPT 系列，并且具备处理复杂项目架构和大规模代码库的工程化能力。

2 国内外万众期待，“中国 AI 站起来了”

“DeepSeek 刚刚泄露了一个模型，这可能会再次改变整个 AI 行业的格局。”在国内外的各大社交平台及社区，针对 DeepSeek 新模型的上线猜测、能力预测的期待帖子已大量涌现。

“中国 AI 站起来了。”昨日，全球最大的 AI 开源社区 Hugging Face 以“距离 DeepSeek 时刻一周年”为题专门发文，复盘了 R1 发布这一年来对中国开源社区及其对整个 AI 生态系统的影响。

“这是中国研发的开源模型首次跻身全球主流榜单。此后一年间，每当有新模型发布时，R1 都会被当作重要的参照基准。该模型迅速登顶 Hugging Face 平台历史最受欢迎模型榜单，而这一平台上最受青睐的模型，也不再以美国研发的产品为主导。”

在他们看来，R1 的真正价值在于降低先进 AI 能力的门槛或者说障碍，并提供了清晰的模式。

技术障碍。通过公开分享其推理路径和训练后的方法，R1 将此前被封闭 API 锁定的高级推理转变为可下载、提炼和微调的工程资产。许多团队不再需要从零开始训练庞大的模型来获得强大的推理能力。
应用障碍。R1 以 MIT 许可证发布，使其使用、修改和再分发变得简单。依赖封闭式模型的公司开始直接将 R1 投入生产。蒸馏、二次培训和领域特定适应成为常规工程工作，而非专门项目。
心理层面。当问题从“我们能做到吗？”转变为“我们如何做好？”时，许多公司的决策发生了变化。对于中国 AI 社区来说，这也是罕见的持续全球关注时刻，对长期被视为追随者的生态系统意义重大。

“在 R1 模型发布一年后的今天，我们看到的不仅是一大批新模型的涌现，更见证了一个富有生命力的中国 AI 开源生态的加速成型。”