微信扫码
添加专属顾问
我要投稿
DeepSeek 悄悄测试百万token上下文新模型,V4版本即将震撼登场?核心内容: 1. DeepSeek 灰度测试1M token上下文窗口,知识库更新至2025年5月 2. GitHub代码显示"Model 1"架构重构,与V3.2存在显著技术差异 3. 近期密集发布mHC和Engram两篇论文,为超长上下文提供技术支撑
春节假期还没到,DeepSeek 就先把礼物拆了一半。
2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级:上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M(百万)token。DeepTech 验证后确认,无论 App 还是网页端,模型自述的上下文长度均为“1M”。
与此同时,知识截止日期也从此前的版本更新到了 2025 年 5 月,在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过,这个新版本目前仍然是一个纯文本模型,不支持视觉输入,也不具备多模态识别能力。
(来源:DeepTech)
以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板,本次提升至 1M 级别可谓进步巨大,此前,Google 的 Gemini 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度,算是在这个维度上跻身第一梯队。
值得注意的是,就在不到一个月前,DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在注意力解码核心库)更新中,社区开发者发现了一个代号为“Model 1”的神秘模型标识,它在 114 个文件中出现了 28 次,作为独立于当前 V3.2 架构的并行分支存在。
(来源:Github)
代码层面的线索显示,Model1 在 KV 缓存(Key-Value Cache)布局、稀疏性处理和 FP8 数据格式解码等方面与 V3.2 存在明显差异,指向了一次架构层面的重大重构,而非简单的版本迭代。这一发现恰好出现在 DeepSeek-R1 发布一周年之际,更与此前媒体援引知情人士的报道,即 DeepSeek 计划于 2 月中旬春节前后发布下一代旗舰模型 V4 这一消息相呼应。
那么,今天灰度测试的这个版本,是否就是传说中 V4 的前奏?从技术逻辑上看,有一些拼图已经摆上了桌面。过去一个多月里,DeepSeek 以罕见的密度连续发布了两篇重要论文,创始人梁文锋均署名参与。元旦当天发表的 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)解决了大规模模型训练中的稳定性问题。
紧接着 1 月中旬开源的 Engram 模块则提出了“条件记忆”(Conditional Memory)这一全新稀疏性维度,用 O(1) 复杂度的哈希查找取代昂贵的神经网络计算来完成静态知识检索。Engram 论文中特别展示了将高达 100B 参数的嵌入表卸载到 CPU 内存、GPU 专注推理计算的能力,额外推理延迟低于 3%。
这种“查算分离”的架构天然适配超长上下文场景,当上下文窗口扩展到百万级别时,传统的全量注意力计算成本会急剧膨胀,而 Engram 结合去年 V3.2 中引入的 DSA(DeepSeek Sparse Attention)机制,理论上可以显著降低长序列推理的计算开销。
不过,灰度测试毕竟只是灰度测试,离正式发布还有距离。目前尚不清楚这个版本的具体参数规模(据测试,其反应速度似乎要明显快于 671B 的 V3 系列,有人猜测或为 200B 模型)、是否已整合 Engram 和 mHC 等新架构组件,以及它在标准基准测试上的表现如何,这些信息 DeepSeek 均未披露。
去年 R1 在农历新年前夕横空出世,引发全球震动,英伟达市值单日蒸发 5930 亿美元;而今年 DeepSeek 的故事还在慢慢展开。百万 token 上下文的灰度测试可能只是小年夜的一道开胃菜。真正的年夜饭,或许还在后头。
参考资料:
1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/
运营/排版:何晨龙
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-11
全新DeepSeek发布!上下文扩展至1M
2026-02-11
DeepSeek V4 悄咪咪上线了?1M 上下文简直爽翻!
2026-02-11
2026 企业级AI(Agentic AI for Enterprise),是新大陆
2026-02-11
深度求索突然出手!1M上下文碾压GPT-4?国内AI迎来全新突破
2026-02-11
从 Clawdbot 到 OpenClaw :揭秘 AI Agent 的三重生态系统供应链风险
2026-02-11
当 AI Agent 接管手机:移动端如何进行观测
2026-02-11
DeepSeek 刚刚发布了新模型!
2026-02-11
DeepSeek新模型来了!官网模型更新为最新版,实测显示非此前的DeepSeek V3.2,最高支持100万tokens输入,以及知识截止日期为2025年5月
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2025-11-15
2026-01-09
2026-02-11
2026-02-11
2026-02-11
2026-02-11
2026-02-07
2026-02-04
2026-02-03
2026-02-03