2026年4月29日 周三晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

RAG还有救么?DeepSeek V4都100万上下文了

发布日期:2026-04-25 21:14:47 浏览次数: 1525
作者:PaperToday

微信搜一搜,关注“PaperToday”

推荐语

DeepSeek V4突破性实现百万token上下文处理,成本骤降至上一代的十分之一,让超长文本处理真正可用。

核心内容:
1. DeepSeek V4创新混合注意力架构,大幅降低计算成本
2. 对比传统RAG和硬扛方案的局限性
3. 实际性能测试数据展示突破性进展

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

100 万 token 是什么概念?你可以把整部《红楼梦》原文加上所有脂批塞进去,再塞几篇学术论文和一份完整代码库,模型还能逐字定位你要的内容。DeepSeek还开源&更新了三个开源项目" data-itemshowtype="0" linktype="text" data-linktype="2">不止V4,DeepSeek还开源&更新了三个开源项目

这件事本身不新鲜,Gemini 和 Claude 都号称支持超长上下文。但 DeepSeek V4 做到了一件不一样的事:它把百万 token 的推理成本压到了上一代 V3.2 的十分之一。KV cache 只需要 10%,单 token 推理 FLOPs 只有 27%。

这意味着"超长上下文"终于从展示品变成了可以日常用的东西。

旧做法哪里不够

在 DeepSeek V4 之前,超长上下文大致有几条路:

一条是硬扛。 把上下文长度拉上去,KV cache 随着序列线性增长,推理到后面每个 token 都要背着前面所有 token 的记忆包袱。Gemini 1M 和 Claude 的扩展上下文本质上都在走这条路,成本很高。

另一条是检索增强(RAG)。 既然一次性塞不下,那就先从外部知识库检索相关片段,只把相关内容喂给模型。这是目前绝大多数企业级应用的标准做法。但 RAG 有一个根本问题:检索质量决定了最终效果的上限,而你永远不知道检索到的那几段内容是不是真正够用。

这两条路都不是最优解。问题是,没有人找到一个既能让模型看到全部信息,又不会让成本爆炸的方法。

DeepSeek V4 的方案:压缩注意力,而不是压缩信息

DeepSeek V4 的核心创新是一套混合注意力架构,把两种压缩策略组合在一起用。

第一种叫 CSA(Compressed Sparse Attention)。 它的思路是:不是所有历史 token 都需要完整记住。每 4 个 token 的 KV cache 压缩成 1 个,然后再用稀疏注意力机制从压缩后的 KV 里挑选最相关的部分做注意力。换句话说,它先压缩再筛选,用两道过滤把计算量压下来。

第二种叫 HCA(Heavily Compressed Attention)。 压缩更激进——每 128 个 token 的 KV cache 压成 1 个。但压缩之后不筛选,而是做全量注意力。适用于那些"粗看一眼就够了"的远距离信息。

两种注意力交替使用:CSA 负责需要精细处理的层,HCA 负责可以粗略看的层。再加上一个滑动窗口分支处理局部依赖,三个分支拼在一起,就是 DeepSeek V4 的完整注意力方案。

效果呢?在 100 万 token 的上下文下,DeepSeek V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 10%。更小的 V4-Flash 更夸张:FLOPs 只有 10%,KV cache 只有 7%。

实验结果:开源模型第一次追平闭源

数字说明一切。

知识问答。 SimpleQA Verified 上拿到 57.9%,比所有其他开源模型高出 20 个百分点以上。但跟 Gemini 3.1 Pro 的 75.6% 比还有差距。

长上下文。 在 100 万 token 的 MRCR 检索任务中,V4-Pro-Max 拿到 83.5% 的 MMR,超过 Gemini 3.1 Pro 的 76.3%,但低于 Claude Opus 4.6 的 92.9%。

更值得注意的是 V4-Flash 的表现:总参数量只有 284B(激活 13B),比 V3.2 小得多,但在大多数基准上已经超过 V3.2-Base。这说明架构改进带来的效率提升是真实的,不只是参数换来的。

这件事对 RAG 意味着什么

回到标题的问题:RAG 还有救么?

答案是:RAG 不会消失,但它的角色会变

当百万 token 的上下文成本降到可以日常使用,很多以前必须依赖检索才能解决的场景,可能直接把全部文档塞进上下文就够了。DeepSeek 自己的测试就显示,在搜索场景中,Agentic Search(直接让模型在长上下文中搜索)比传统 RAG 的胜率高出 61.7%。

但这不意味着 RAG 完全没有用。DeepSeek V4 在"对比"和"推荐"这类需要综合多来源信息的任务上,RAG 仍然有竞争力。而且当数据量远超百万 token 时(比如整个企业知识库),检索仍然是必要的。

真正会改变的是中间地带:那些以前因为成本问题不得不切成碎片检索的内容,现在可以直接整块塞进上下文了。

对普通开发者和产品意味着什么

长文档分析从奢侈品变成标准功能。 合同审查、论文解读、财报分析这些以前需要分段处理再拼接的场景,现在可以一次性处理。

代码 Agent 变得更实用。 DeepSeek 的内部测试显示,V4-Pro-Max 在真实研发任务上的通过率达到了 67%,接近 Claude Opus 4.5 的 70%。85 名内部开发者的调查显示,52% 的人愿意把它作为主力代码模型。

多轮复杂任务成为可能。 百万 token 的上下文 + 完整保留推理历史,意味着 Agent 可以在很长的对话中保持连贯的思考链,不会像以前那样每轮都丢掉之前的推理。

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
https://huggingface.co/collections/deepseek-ai/deepseek-v4

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询