2026年4月29日 周三晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

DeepSeek-V4 终于来了!1M上下文,开源模型新王登基

发布日期:2026-04-24 12:11:56 浏览次数: 1581
作者:笨笨聊AI

微信搜一搜,关注“笨笨聊AI”

推荐语

DeepSeek-V4震撼发布!百万级上下文处理能力+推理成本骤降90%,国产AI再创开源模型新高度。

核心内容:
1. 性能突破:1.6万亿参数模型在知识、推理、编程等任务全面超越开源竞品
2. 技术创新:独创混合注意力机制实现百万token高效处理
3. 成本优势:推理计算量仅为前代27%,大幅降低使用门槛

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

百万token一口气读完,推理成本暴降90%,国产AI又放大招了

大家好,我是笨笨。

今天AI圈又炸锅了。DeepSeek放出了V4系列模型的预览版,看完技术报告我只想说一句:这也太卷了吧

1.6万亿参数的巨无霸(激活490亿)、一口气处理100万token的上下文、推理计算量只有上一代的27%……这些数字背后,到底意味着什么?

官方同时放出了技术报告,今天用大白话,把这份官方80多页的技术报告给大家盘一盘。 

原文地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


一、先看成绩单:开源模型里,它已经是“天花板”

先看这张表

如果给大模型排个“高考成绩”,DeepSeek-V4-Pro-Max在知识、推理、编程、长文本等多个科目上,已经全面碾压了之前的开源模型。甚至在编程竞赛Codeforces上,它的水平能排进人类选手的前23名

跟闭源大佬们比呢?知识类任务还差Gemini-3.1-Pro一点,但推理能力已经非常接近。而且DeepSeek-V4-Flash这个“小杯”版本,参数只有284亿激活,成本极低,推理效果却能媲美GPT-5.2。

简单说:开源最强,闭源可战


二、最大的杀手锏:100万token上下文,效率还暴涨

你可能听说过“100万上下文”——就是一次能塞进三部《三体》那么多字。以前很多模型也能做到,但代价是慢、贵、吃显存

DeepSeek-V4这次玩出了新花样。

它怎么做到的?

传统的注意力机制,处理长文本时计算量像坐火箭一样往上窜(O(n²)复杂度)。DeepSeek-V4搞了一套 “混合注意力” 架构,核心思路就两个字:压缩

具体有两招:

  1. 1. CSA(压缩稀疏注意力):每4个token压成一个“压缩包”,然后只挑最重要的512或1024个包来算。就像读一本厚书,你先看目录,只挑关键章节细读。
  2. 2. HCA(重度压缩注意力):压得更狠,每128个token压成一个包,直接当做一个整体来算。适合超级长的文档。

这两种注意力层交替使用,再加上滑动窗口、注意力下沉等技巧,结果就是:

在100万token的情况下,DeepSeek-V4-Pro的计算量只有上一代V3.2的27%,KV缓存只有10%!

这意味着什么呢?以前跑100万token的推理,又慢又贵;现在普通显卡也能轻松跑起来。 长文本终于从“实验室玩具”变成了“日常工具”。

实测长文本表现如何?

在MRCR(大海捞针)测试中,128K以内几乎完美,到100万token时虽然有所下降,但仍然比Gemini-3.1-Pro强。

在更贴近真实场景的CorpusQA上,也是全面领先。


三、架构升级:不止是注意力

除了注意力机制,V4还在好几个地方动了刀。

1. mHC:让信号传得更稳

以前残差连接就是简单的“x + F(x)”。V4用了流形约束超连接(mHC),相当于给信息通道加了一个“稳压器”,防止深层网络信号爆炸或消失。训练更稳,效果更好。

2. Muon优化器:收敛更快

Muon是最近很火的新优化器,DeepSeek把它用在了大部分参数上,收敛速度比AdamW快,训练更稳定。还自己魔改了一套混合牛顿-舒尔茨迭代,让正交化更高效。

3. 训练稳定性:提前路由 + SwiGLU截断

训练万亿参数模型,最怕“梯度爆炸”导致loss突然飙升。DeepSeek发现罪魁祸首是MoE层的路由机制。他们搞了个“提前路由”:用上一步的旧参数提前算好路由结果,避免梯度震荡。再加上SwiGLU截断(把线性部分限制在[-10,10]),几乎消灭了loss尖峰。


四、推理加速:FP4量化 + 极致工程

为了让模型跑得更快,DeepSeek在工程上卷到了头发丝。

  • • FP4量化:MoE专家权重和注意力索引器的QK路径都用FP4存储和计算,内存减半,速度翻倍。而且是量化感知训练,精度损失几乎为零。
  • • 专家并行(EP)优化:把MoE的通信和计算完全重叠,通信延迟被隐藏得干干净净。实测推理加速1.5~1.73倍。
  • • TileLang自研DSL:用这个领域专用语言写算子,既灵活又高效,CPU侧调度开销从几十微秒降到1微秒以下。

五、训练数据:32T token,什么都有

预训练数据超过32T token,比V3更多更优。特别强化了代码、数学、长文档、多语言。还引入了Agentic数据,让模型学会用工具、调用API。

分词器沿用V3的128K词表,新增了一些特殊token。文档打包时用了样本级注意力掩码,减少截断。


六、后训练:专才培养 + 全能合并

预训练出来的模型像个“通才”,但还不够好用。DeepSeek后训练走了两条路:

1. 培养专才

针对数学、编程、智能体、指令跟随等不同领域,分别做监督微调 + 强化学习。强化学习用的是GRPO(Group Relative Policy Optimization),不靠人工标注奖励模型,而是让模型自己当裁判(生成式奖励模型)。

有意思的是,他们训练了三种“思考模式”:

  • • Non-think:快速直觉回答,日常聊天用
  • • Think High:中等长度推理,复杂问题
  • • Think Max:疯狂思考,穷尽所有逻辑可能,用于探索模型极限

2. 全能合并:On-Policy Distillation

多个专才模型怎么合并成一个全能模型?DeepSeek用了**“同策略蒸馏”**:让学生模型(全能版)自己生成问题,然后学习每个专才老师的输出分布(反向KL散度)。这样同一个问题,数学部分学数学老师,编程部分学编程老师,各取所长。

最终效果:一个模型,多面手


七、真实场景表现:写中文、做搜索、当程序员

中文写作

跟Gemini-3.1-Pro比,DeepSeek-V4-Pro在功能性写作上62.7%胜率,创意写作上60%指令遵循胜率77.5%质量胜率。用户反馈:Gemini有时“太有自己的风格”,不听话;V4更尊重用户要求。

但在超高难度指令和多轮写作上,还是略输Claude Opus 4.5。

搜索问答

  • • RAG模式:相比V3.2,V4-Pro胜率28.1% vs 10.4%,提升明显。
  • • Agentic搜索:比RAG更准(尤其复杂问题),成本只高一丢丢(工具调用多,但输出token并没多太多)。

白领工作(分析、写报告、做方案)

在30个高级专业任务上(金融、教育、法律等),跟Claude Opus 4.6比,DeepSeek-V4-Pro-Max 63%非败率,在任务完成度和内容质量上尤其突出。但格式美观度、总结能力还有提升空间。

代码智能体

在内部研发任务(PyTorch、CUDA、Rust、C++)上,V4-Pro-Max的通过率高达77%,比Claude Sonnet 4.5(67%)高,接近Opus 4.5(73%)和Opus 4.6思考版(80%)。内部开发者调查:91%的人愿意把它作为主力编码模型


八、总结一句话

DeepSeek-V4系列,用更聪明的注意力压缩极致的工程优化,把百万token从“能跑”变成了“好用”。开源模型首次在推理和长文本上逼近闭源顶级水平。

虽然架构有点复杂(为了求稳,堆了不少已验证的trick),训练稳定性原理还没完全搞清,但这不妨碍它成为目前开源LLM的新标杆

模型权重已经开源:

https://huggingface.co/collections/deepseek-ai/deepseek-v4


最后一句:本文基于DeepSeek-V4预览版技术报告解读,具体性能以实际评测为准。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询