我要投稿

RAG还有救么？DeepSeek V4都100万上下文了

发布日期：2026-04-25 21:14:47 浏览次数： 1848

作者：PaperToday

微信搜一搜，关注“PaperToday”

100 万 token 是什么概念？你可以把整部《红楼梦》原文加上所有脂批塞进去，再塞几篇学术论文和一份完整代码库，模型还能逐字定位你要的内容。DeepSeek还开源&更新了三个开源项目" data-itemshowtype="0" linktype="text" data-linktype="2">不止V4，DeepSeek还开源&更新了三个开源项目

这件事本身不新鲜，Gemini 和 Claude 都号称支持超长上下文。但 DeepSeek V4 做到了一件不一样的事：它把百万 token 的推理成本压到了上一代 V3.2 的十分之一。KV cache 只需要 10%，单 token 推理 FLOPs 只有 27%。

这意味着"超长上下文"终于从展示品变成了可以日常用的东西。

旧做法哪里不够

在 DeepSeek V4 之前，超长上下文大致有几条路：

一条是硬扛。 把上下文长度拉上去，KV cache 随着序列线性增长，推理到后面每个 token 都要背着前面所有 token 的记忆包袱。Gemini 1M 和 Claude 的扩展上下文本质上都在走这条路，成本很高。

另一条是检索增强（RAG）。 既然一次性塞不下，那就先从外部知识库检索相关片段，只把相关内容喂给模型。这是目前绝大多数企业级应用的标准做法。但 RAG 有一个根本问题：检索质量决定了最终效果的上限，而你永远不知道检索到的那几段内容是不是真正够用。

这两条路都不是最优解。问题是，没有人找到一个既能让模型看到全部信息，又不会让成本爆炸的方法。

DeepSeek V4 的方案：压缩注意力，而不是压缩信息

DeepSeek V4 的核心创新是一套混合注意力架构，把两种压缩策略组合在一起用。

第一种叫 CSA（Compressed Sparse Attention）。 它的思路是：不是所有历史 token 都需要完整记住。每 4 个 token 的 KV cache 压缩成 1 个，然后再用稀疏注意力机制从压缩后的 KV 里挑选最相关的部分做注意力。换句话说，它先压缩再筛选，用两道过滤把计算量压下来。

第二种叫 HCA（Heavily Compressed Attention）。 压缩更激进——每 128 个 token 的 KV cache 压成 1 个。但压缩之后不筛选，而是做全量注意力。适用于那些"粗看一眼就够了"的远距离信息。

两种注意力交替使用：CSA 负责需要精细处理的层，HCA 负责可以粗略看的层。再加上一个滑动窗口分支处理局部依赖，三个分支拼在一起，就是 DeepSeek V4 的完整注意力方案。

效果呢？在 100 万 token 的上下文下，DeepSeek V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV cache 只有 10%。更小的 V4-Flash 更夸张：FLOPs 只有 10%，KV cache 只有 7%。

实验结果：开源模型第一次追平闭源

数字说明一切。

知识问答。 SimpleQA Verified 上拿到 57.9%，比所有其他开源模型高出 20 个百分点以上。但跟 Gemini 3.1 Pro 的 75.6% 比还有差距。

长上下文。 在 100 万 token 的 MRCR 检索任务中，V4-Pro-Max 拿到 83.5% 的 MMR，超过 Gemini 3.1 Pro 的 76.3%，但低于 Claude Opus 4.6 的 92.9%。

更值得注意的是 V4-Flash 的表现：总参数量只有 284B（激活 13B），比 V3.2 小得多，但在大多数基准上已经超过 V3.2-Base。这说明架构改进带来的效率提升是真实的，不只是参数换来的。

这件事对 RAG 意味着什么

回到标题的问题：RAG 还有救么？

答案是：RAG 不会消失，但它的角色会变。

当百万 token 的上下文成本降到可以日常使用，很多以前必须依赖检索才能解决的场景，可能直接把全部文档塞进上下文就够了。DeepSeek 自己的测试就显示，在搜索场景中，Agentic Search（直接让模型在长上下文中搜索）比传统 RAG 的胜率高出 61.7%。

但这不意味着 RAG 完全没有用。DeepSeek V4 在"对比"和"推荐"这类需要综合多来源信息的任务上，RAG 仍然有竞争力。而且当数据量远超百万 token 时（比如整个企业知识库），检索仍然是必要的。

真正会改变的是中间地带：那些以前因为成本问题不得不切成碎片检索的内容，现在可以直接整块塞进上下文了。

对普通开发者和产品意味着什么

长文档分析从奢侈品变成标准功能。 合同审查、论文解读、财报分析这些以前需要分段处理再拼接的场景，现在可以一次性处理。

代码 Agent 变得更实用。 DeepSeek 的内部测试显示，V4-Pro-Max 在真实研发任务上的通过率达到了 67%，接近 Claude Opus 4.5 的 70%。85 名内部开发者的调查显示，52% 的人愿意把它作为主力代码模型。

多轮复杂任务成为可能。 百万 token 的上下文 + 完整保留推理历史，意味着 Agent 可以在很长的对话中保持连贯的思考链，不会像以前那样每轮都丢掉之前的推理。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-12

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

2026-06-12

Agent skill 迭代式编写实战

2026-06-12

GPT-5.5和Opus 4.8都搞不定的Bug，被Fable 5一晚上解决

2026-06-12

Codex 大降价要来了，这份官方指南手把手教你高效榨干额度

2026-06-11

GPT-5.6首批实测来了！精准狙击Mythos

2026-06-10

如何利用 Harness “一句话交付产品功能”？

2026-06-10

面向 Agent Skill 的 CLI/SSO 鉴权体系：安全、无感、可追溯

2026-06-10

Loop Engineering 循环工程又是什么鬼？

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

大家都在问

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部