微信扫码
添加专属顾问
我要投稿
DeepSeek V4突破性实现百万token上下文处理,成本骤降至上一代的十分之一,让超长文本处理真正可用。核心内容: 1. DeepSeek V4创新混合注意力架构,大幅降低计算成本 2. 对比传统RAG和硬扛方案的局限性 3. 实际性能测试数据展示突破性进展
100 万 token 是什么概念?你可以把整部《红楼梦》原文加上所有脂批塞进去,再塞几篇学术论文和一份完整代码库,模型还能逐字定位你要的内容。DeepSeek还开源&更新了三个开源项目" data-itemshowtype="0" linktype="text" data-linktype="2">不止V4,DeepSeek还开源&更新了三个开源项目
这件事本身不新鲜,Gemini 和 Claude 都号称支持超长上下文。但 DeepSeek V4 做到了一件不一样的事:它把百万 token 的推理成本压到了上一代 V3.2 的十分之一。KV cache 只需要 10%,单 token 推理 FLOPs 只有 27%。
这意味着"超长上下文"终于从展示品变成了可以日常用的东西。
在 DeepSeek V4 之前,超长上下文大致有几条路:
一条是硬扛。 把上下文长度拉上去,KV cache 随着序列线性增长,推理到后面每个 token 都要背着前面所有 token 的记忆包袱。Gemini 1M 和 Claude 的扩展上下文本质上都在走这条路,成本很高。
另一条是检索增强(RAG)。 既然一次性塞不下,那就先从外部知识库检索相关片段,只把相关内容喂给模型。这是目前绝大多数企业级应用的标准做法。但 RAG 有一个根本问题:检索质量决定了最终效果的上限,而你永远不知道检索到的那几段内容是不是真正够用。
这两条路都不是最优解。问题是,没有人找到一个既能让模型看到全部信息,又不会让成本爆炸的方法。
DeepSeek V4 的核心创新是一套混合注意力架构,把两种压缩策略组合在一起用。
第一种叫 CSA(Compressed Sparse Attention)。 它的思路是:不是所有历史 token 都需要完整记住。每 4 个 token 的 KV cache 压缩成 1 个,然后再用稀疏注意力机制从压缩后的 KV 里挑选最相关的部分做注意力。换句话说,它先压缩再筛选,用两道过滤把计算量压下来。
第二种叫 HCA(Heavily Compressed Attention)。 压缩更激进——每 128 个 token 的 KV cache 压成 1 个。但压缩之后不筛选,而是做全量注意力。适用于那些"粗看一眼就够了"的远距离信息。
两种注意力交替使用:CSA 负责需要精细处理的层,HCA 负责可以粗略看的层。再加上一个滑动窗口分支处理局部依赖,三个分支拼在一起,就是 DeepSeek V4 的完整注意力方案。
效果呢?在 100 万 token 的上下文下,DeepSeek V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 10%。更小的 V4-Flash 更夸张:FLOPs 只有 10%,KV cache 只有 7%。
数字说明一切。
知识问答。 SimpleQA Verified 上拿到 57.9%,比所有其他开源模型高出 20 个百分点以上。但跟 Gemini 3.1 Pro 的 75.6% 比还有差距。
长上下文。 在 100 万 token 的 MRCR 检索任务中,V4-Pro-Max 拿到 83.5% 的 MMR,超过 Gemini 3.1 Pro 的 76.3%,但低于 Claude Opus 4.6 的 92.9%。
更值得注意的是 V4-Flash 的表现:总参数量只有 284B(激活 13B),比 V3.2 小得多,但在大多数基准上已经超过 V3.2-Base。这说明架构改进带来的效率提升是真实的,不只是参数换来的。
回到标题的问题:RAG 还有救么?
答案是:RAG 不会消失,但它的角色会变。
当百万 token 的上下文成本降到可以日常使用,很多以前必须依赖检索才能解决的场景,可能直接把全部文档塞进上下文就够了。DeepSeek 自己的测试就显示,在搜索场景中,Agentic Search(直接让模型在长上下文中搜索)比传统 RAG 的胜率高出 61.7%。
但这不意味着 RAG 完全没有用。DeepSeek V4 在"对比"和"推荐"这类需要综合多来源信息的任务上,RAG 仍然有竞争力。而且当数据量远超百万 token 时(比如整个企业知识库),检索仍然是必要的。
真正会改变的是中间地带:那些以前因为成本问题不得不切成碎片检索的内容,现在可以直接整块塞进上下文了。
长文档分析从奢侈品变成标准功能。 合同审查、论文解读、财报分析这些以前需要分段处理再拼接的场景,现在可以一次性处理。
代码 Agent 变得更实用。 DeepSeek 的内部测试显示,V4-Pro-Max 在真实研发任务上的通过率达到了 67%,接近 Claude Opus 4.5 的 70%。85 名内部开发者的调查显示,52% 的人愿意把它作为主力代码模型。
多轮复杂任务成为可能。 百万 token 的上下文 + 完整保留推理历史,意味着 Agent 可以在很长的对话中保持连贯的思考链,不会像以前那样每轮都丢掉之前的推理。
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
https://huggingface.co/collections/deepseek-ai/deepseek-v453AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-25
Image2 + MiniMax CLI,一句话到成片。拆解 MiniMax CLI 的Agent 设计哲学
2026-04-25
关于DeepSeek-V4,普通人可以知道的6件事
2026-04-24
OpenAI GPT-5.5 即将上线 Microsoft Foundry(国际版)
2026-04-24
一文读懂DeepSeek V4:1.6万亿参数、百万上下文、华为芯片
2026-04-24
AI编程的“作坊时代”即将终结!Google Cloud全套企业级“驾驭工程”底座,正在重构开发者的一切
2026-04-24
GPT5.5来了,最大特点解析
2026-04-24
微信9.0要来了,内置一个AI管家
2026-04-24
GPT-5.5来了!我撤回了退订ChatGPT的决定
2026-04-15
2026-01-26
2026-03-31
2026-03-13
2026-02-14
2026-02-03
2026-02-03
2026-02-03
2026-03-17
2026-02-09
2026-04-22
2026-04-18
2026-04-13
2026-04-12
2026-04-07
2026-04-01
2026-03-31
2026-03-31