我要投稿

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

发布日期：2026-02-11 19:02:06 浏览次数： 3357

作者：DeepTech深科技

微信搜一搜，关注“DeepTech深科技”

春节假期还没到，DeepSeek 就先把礼物拆了一半。

2 月 11 日，多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级：上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M（百万）token。DeepTech 验证后确认，无论 App 还是网页端，模型自述的上下文长度均为“1M”。

与此同时，知识截止日期也从此前的版本更新到了 2025 年 5 月，在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过，这个新版本目前仍然是一个纯文本模型，不支持视觉输入，也不具备多模态识别能力。

（来源：DeepTech）

以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板，本次提升至 1M 级别可谓进步巨大，此前，Google 的 Gemini 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度，算是在这个维度上跻身第一梯队。

值得注意的是，就在不到一个月前，DeepSeek 的 GitHub 仓库 FlashMLA（其自研的多头潜在注意力解码核心库）更新中，社区开发者发现了一个代号为“Model 1”的神秘模型标识，它在 114 个文件中出现了 28 次，作为独立于当前 V3.2 架构的并行分支存在。

（来源：Github）

代码层面的线索显示，Model1 在 KV 缓存（Key-Value Cache）布局、稀疏性处理和 FP8 数据格式解码等方面与 V3.2 存在明显差异，指向了一次架构层面的重大重构，而非简单的版本迭代。这一发现恰好出现在 DeepSeek-R1 发布一周年之际，更与此前媒体援引知情人士的报道，即 DeepSeek 计划于 2 月中旬春节前后发布下一代旗舰模型 V4 这一消息相呼应。

那么，今天灰度测试的这个版本，是否就是传说中 V4 的前奏？从技术逻辑上看，有一些拼图已经摆上了桌面。过去一个多月里，DeepSeek 以罕见的密度连续发布了两篇重要论文，创始人梁文锋均署名参与。元旦当天发表的 mHC（Manifold-Constrained Hyper-Connections，流形约束超连接）解决了大规模模型训练中的稳定性问题。

紧接着 1 月中旬开源的 Engram 模块则提出了“条件记忆”（Conditional Memory）这一全新稀疏性维度，用 O(1) 复杂度的哈希查找取代昂贵的神经网络计算来完成静态知识检索。Engram 论文中特别展示了将高达 100B 参数的嵌入表卸载到 CPU 内存、GPU 专注推理计算的能力，额外推理延迟低于 3%。

这种“查算分离”的架构天然适配超长上下文场景，当上下文窗口扩展到百万级别时，传统的全量注意力计算成本会急剧膨胀，而 Engram 结合去年 V3.2 中引入的 DSA（DeepSeek Sparse Attention）机制，理论上可以显著降低长序列推理的计算开销。

不过，灰度测试毕竟只是灰度测试，离正式发布还有距离。目前尚不清楚这个版本的具体参数规模（据测试，其反应速度似乎要明显快于 671B 的 V3 系列，有人猜测或为 200B 模型）、是否已整合 Engram 和 mHC 等新架构组件，以及它在标准基准测试上的表现如何，这些信息 DeepSeek 均未披露。

去年 R1 在农历新年前夕横空出世，引发全球震动，英伟达市值单日蒸发 5930 亿美元；而今年 DeepSeek 的故事还在慢慢展开。百万 token 上下文的灰度测试可能只是小年夜的一道开胃菜。真正的年夜饭，或许还在后头。