我要投稿

DeepSeek-V4 终于来了！1M上下文，开源模型新王登基

发布日期：2026-04-24 12:11:56 浏览次数： 1581

作者：笨笨聊AI

微信搜一搜，关注“笨笨聊AI”

百万token一口气读完，推理成本暴降90%，国产AI又放大招了

大家好，我是笨笨。

今天AI圈又炸锅了。DeepSeek放出了V4系列模型的预览版，看完技术报告我只想说一句：这也太卷了吧！

1.6万亿参数的巨无霸（激活490亿）、一口气处理100万token的上下文、推理计算量只有上一代的27%……这些数字背后，到底意味着什么？

官方同时放出了技术报告，今天用大白话，把这份官方80多页的技术报告给大家盘一盘。

原文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

一、先看成绩单：开源模型里，它已经是“天花板”

先看这张表

如果给大模型排个“高考成绩”，DeepSeek-V4-Pro-Max在知识、推理、编程、长文本等多个科目上，已经全面碾压了之前的开源模型。甚至在编程竞赛Codeforces上，它的水平能排进人类选手的前23名。

跟闭源大佬们比呢？知识类任务还差Gemini-3.1-Pro一点，但推理能力已经非常接近。而且DeepSeek-V4-Flash这个“小杯”版本，参数只有284亿激活，成本极低，推理效果却能媲美GPT-5.2。

简单说：开源最强，闭源可战。

二、最大的杀手锏：100万token上下文，效率还暴涨

你可能听说过“100万上下文”——就是一次能塞进三部《三体》那么多字。以前很多模型也能做到，但代价是慢、贵、吃显存。

DeepSeek-V4这次玩出了新花样。

它怎么做到的？

传统的注意力机制，处理长文本时计算量像坐火箭一样往上窜（O(n²)复杂度）。DeepSeek-V4搞了一套 “混合注意力” 架构，核心思路就两个字：压缩。

具体有两招：

1. CSA（压缩稀疏注意力）：每4个token压成一个“压缩包”，然后只挑最重要的512或1024个包来算。就像读一本厚书，你先看目录，只挑关键章节细读。
2. HCA（重度压缩注意力）：压得更狠，每128个token压成一个包，直接当做一个整体来算。适合超级长的文档。

这两种注意力层交替使用，再加上滑动窗口、注意力下沉等技巧，结果就是：

在100万token的情况下，DeepSeek-V4-Pro的计算量只有上一代V3.2的27%，KV缓存只有10%！

这意味着什么呢？以前跑100万token的推理，又慢又贵；现在普通显卡也能轻松跑起来。 长文本终于从“实验室玩具”变成了“日常工具”。

实测长文本表现如何？

在MRCR（大海捞针）测试中，128K以内几乎完美，到100万token时虽然有所下降，但仍然比Gemini-3.1-Pro强。

在更贴近真实场景的CorpusQA上，也是全面领先。

三、架构升级：不止是注意力

除了注意力机制，V4还在好几个地方动了刀。

1. mHC：让信号传得更稳

以前残差连接就是简单的“x + F(x)”。V4用了流形约束超连接（mHC），相当于给信息通道加了一个“稳压器”，防止深层网络信号爆炸或消失。训练更稳，效果更好。

2. Muon优化器：收敛更快

Muon是最近很火的新优化器，DeepSeek把它用在了大部分参数上，收敛速度比AdamW快，训练更稳定。还自己魔改了一套混合牛顿-舒尔茨迭代，让正交化更高效。

3. 训练稳定性：提前路由 + SwiGLU截断

训练万亿参数模型，最怕“梯度爆炸”导致loss突然飙升。DeepSeek发现罪魁祸首是MoE层的路由机制。他们搞了个“提前路由”：用上一步的旧参数提前算好路由结果，避免梯度震荡。再加上SwiGLU截断（把线性部分限制在[-10,10]），几乎消灭了loss尖峰。

四、推理加速：FP4量化 + 极致工程

为了让模型跑得更快，DeepSeek在工程上卷到了头发丝。

• FP4量化：MoE专家权重和注意力索引器的QK路径都用FP4存储和计算，内存减半，速度翻倍。而且是量化感知训练，精度损失几乎为零。
• 专家并行（EP）优化：把MoE的通信和计算完全重叠，通信延迟被隐藏得干干净净。实测推理加速1.5~1.73倍。
• TileLang自研DSL：用这个领域专用语言写算子，既灵活又高效，CPU侧调度开销从几十微秒降到1微秒以下。

五、训练数据：32T token，什么都有

预训练数据超过32T token，比V3更多更优。特别强化了代码、数学、长文档、多语言。还引入了Agentic数据，让模型学会用工具、调用API。

分词器沿用V3的128K词表，新增了一些特殊token。文档打包时用了样本级注意力掩码，减少截断。

六、后训练：专才培养 + 全能合并

预训练出来的模型像个“通才”，但还不够好用。DeepSeek后训练走了两条路：

1. 培养专才

针对数学、编程、智能体、指令跟随等不同领域，分别做监督微调 + 强化学习。强化学习用的是GRPO（Group Relative Policy Optimization），不靠人工标注奖励模型，而是让模型自己当裁判（生成式奖励模型）。

有意思的是，他们训练了三种“思考模式”：

• Non-think：快速直觉回答，日常聊天用
• Think High：中等长度推理，复杂问题
• Think Max：疯狂思考，穷尽所有逻辑可能，用于探索模型极限

2. 全能合并：On-Policy Distillation

多个专才模型怎么合并成一个全能模型？DeepSeek用了**“同策略蒸馏”**：让学生模型（全能版）自己生成问题，然后学习每个专才老师的输出分布（反向KL散度）。这样同一个问题，数学部分学数学老师，编程部分学编程老师，各取所长。

最终效果：一个模型，多面手。

七、真实场景表现：写中文、做搜索、当程序员

中文写作

跟Gemini-3.1-Pro比，DeepSeek-V4-Pro在功能性写作上62.7%胜率，创意写作上60%指令遵循胜率、77.5%质量胜率。用户反馈：Gemini有时“太有自己的风格”，不听话；V4更尊重用户要求。

但在超高难度指令和多轮写作上，还是略输Claude Opus 4.5。

搜索问答

• RAG模式：相比V3.2，V4-Pro胜率28.1% vs 10.4%，提升明显。
• Agentic搜索：比RAG更准（尤其复杂问题），成本只高一丢丢（工具调用多，但输出token并没多太多）。

白领工作（分析、写报告、做方案）

在30个高级专业任务上（金融、教育、法律等），跟Claude Opus 4.6比，DeepSeek-V4-Pro-Max 63%非败率，在任务完成度和内容质量上尤其突出。但格式美观度、总结能力还有提升空间。

代码智能体

在内部研发任务（PyTorch、CUDA、Rust、C++）上，V4-Pro-Max的通过率高达77%，比Claude Sonnet 4.5（67%）高，接近Opus 4.5（73%）和Opus 4.6思考版（80%）。内部开发者调查：91%的人愿意把它作为主力编码模型。

八、总结一句话

DeepSeek-V4系列，用更聪明的注意力压缩和极致的工程优化，把百万token从“能跑”变成了“好用”。开源模型首次在推理和长文本上逼近闭源顶级水平。

虽然架构有点复杂（为了求稳，堆了不少已验证的trick），训练稳定性原理还没完全搞清，但这不妨碍它成为目前开源LLM的新标杆。

模型权重已经开源：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

最后一句：本文基于DeepSeek-V4预览版技术报告解读，具体性能以实际评测为准。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-24

Deepseek V4终于发布，但它留下的5道主观题还没有答案

2026-04-24

DeepSeek-V4 预览版：迈入百万上下文普惠时代

2026-04-23

DeepSeek V4发布前，罗福莉亮剑！小米最强大模型MiMo-V2.5深夜突袭

2026-04-23

腾讯开源Cube Sandbox：60毫秒冷启动的AI沙盒运行时

2026-04-22

百度把Nano Banana塞进4090，疯了？

2026-04-21

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力

2026-04-20

借助 Gemma 4，将业界领先的 Agent Skills 引入端侧

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

终于来了！首款可视化 Skills 神器开源，Claude/Cursor/Codex 一键同步！

2026-01-26

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

大家都在问

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw