不要做RAG，CAG足以应对所有知识任务！

发布日期：2025-01-17 17:21:47 浏览次数： 2677

作者：GeekSavvy

微信搜一搜，关注“GeekSavvy”

近年来，大语言模型（LLM）在基于知识的任务中取得了巨大进展，传统的检索增强生成（RAG）方法能够通过向大语言模型输入外部知识源，从而生成更好的答案，弥补了信息孤岛和信息时效性问题。

不过，RAG 也有弊端，就是受到信息检索延迟和选择错误的限制。康奈尔大学提出来一种新的方法，缓存增强生成（CAG）。

康奈尔提出新方法 CAG

基于以后 LLM 在上下文窗口的显著提升情况下，康奈尔大学提出了一种替代范式，即绕过实时检索的缓存增强生成（CAG）。

CAG 方法包括将所有相关资源（尤其是当用于检索的文档或知识的大小有限且可管理时）预加载到 LLM 的扩展上下文中，并缓存其运行时参数。在推理过程中，模型利用这些预加载的参数来回答查询，而无需额外的检索步骤。

比较分析表明，CAG 消除了检索延迟并最大限度地减少了检索错误，同时保持了上下文相关性。跨多个基准的性能评估突出了长上下文 LLM 优于传统 RAG 管道或补充传统 RAG 管道的场景。这些发现表明，对于某些应用程序，特别是那些知识库受限的应用程序，CAG 提供了一种简化且高效的 RAG 替代方案，以降低复杂性获得可比或卓越的结果。

现在，缓存增强生成（CAG）能让具有长上下文窗口的模型预先加载所有信息。

01 CAG 的优势

更快的响应时间
降低错误风险
越来越简单的架构

02 CAG 理论

LLM 具有特定的上下文窗口。此窗口确定可以同时提供给模型的最大信息量。CAG 提前将所有必要的信息加载到上下文窗口中。因此，模型不需要在查询期间动态获取单独的信息源。

关键在于 Key-Value 键值（KV）缓存。

LLM 中的标准 KV 缓存

通常在 transformer 模型中，每个 input token 都通过自我注意机制与其他 token 相关联。

在此过程中：

Key： 表示标记含义的向量。它确定如何与其他标记关联。
Value：令牌中包含的信息向量。这是在响应生成期间考虑的“实际内容”。

比如：

“I eat an apple.”单词 'apple' 的键表示它如何适应句子中其他单词的上下文。该值带有单词 “apple” 的含义。

这种机制允许模型为每个 token 计算它与所有其他 token 的交互方式。这在处理长文本或经常需要相同信息时特别有用。

CAG 中的 KV 缓存略有不同

在 CAG 中，整个知识库作为 KV 缓存加载到模型中。也就是说，知识库中文档的所有 KV 值都是预先计算和存储的。

当查询传入时，模型会立即使用此缓存进行响应，而不是从外部系统获取信息。这可以防止对每个查询一遍又一遍地执行相同的计算。它还可以在查询之间创建一致的上下文。

这是因为存储在缓存中的信息将作为一个整体加载到模型的上下文窗口中。这提高了答案的准确性。

这种方式的优势：

减少时间损失
减少携带虚假文件的可能性
确保速度和效率
节省内存和处理能力
更一致的上下文工作
提供系统架构的简单性

这里的一个重要点就是硬件。在处理大型知识库时，GPU 内存和 RAM 至关重要。KV 缓存需要时间和处理能力来对知识库进行初始编码。但是，一旦完成此操作，就不需要重新计算。

03 RAG 与 CAG

RAG 方法独立于模型动态检索信息源，并在响应生成中使用此信息。但是，RAG 存在延迟、文档选择不正确和系统复杂性等缺点。

相反，CAG 通过将所有相关信息预加载到模型的扩展上下文窗口中，消除了实时信息检索的需要。

下表给出了研究人员用实验方法测试 RAG 和 CAG 之间差异的结果。实验结果表明，所提出的 CAG 方法与传统 RAG 系统之间存在明显差异。

CAG 通过提供更快、更准确的答案来胜过 RAG，尤其是在知识库大小有限的情况下。

实验结果

04 CAG 可以在所有情况下使用吗

CAG 受模型上下文窗口大小的限制。假如，一个模型可以处理多达 128,000 tokens 的上下文，那么知识库就需要是这个规模。例如：

我们有 100 个文档，每个文档超过 150 页。

假设每页平均包含 300-500 tokens，则150页的文档大约有 45,000-75,000 个tokens。

对于 100 个文档，这意味着总共有 450 w - 750 w tokens。

但是，一个高达 450 w — 750 w tokens 的知识库：

无法一次缓存所有信息，因为它超出了上下文限制。这会导致内存问题。
KV 缓存的大小会增加内存消耗，这需要更大的 GPU/CPU 资源。

解决方案：

a. 分割与动态 CAG：

可以将知识库划分为更小、易于管理的子组。例如，让每个子组包含 10 份文档（约 450,000 - 750,000 tkoens）。

根据用户查询的范围，只预加载相关的子组。

b. 混合方法（CAG + RAG）

可以缓存基本的知识库，并使用 CAG 加载常用信息。

对于不常用或边缘情况，可以使用 RAG 进行实时检索。

混合模型兼具高速度和灵活性。

c. 预筛选或过滤

如果你的查询经常集中在文档的特定部分，可以设计一个预筛选机制，只加载那些部分。

例如，当收到用户查询时，可以使用快速分类器来确定相关的文档或部分。

d. 更大的模型和资源

如果有技术手段，可以使用支持更长上下文窗口的模型或专门的基础设施（例如，使用多个 GPU 进行并行上下文处理）。

结论

实验证明，CAG 的性能优于 RAG，尤其是在知识库大小可控的情况下。未来，随着模型的上下文窗口容量的增加，CAG 的使用可能会进一步扩展。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

2026-06-29

PixelRAG：伯克利团队颠覆传统 RAG，用截图代替文本检索! 28 天狂揽 3000+ Star！

2026-06-29

腾讯WeKnora开源详解（三）：检索引擎与生态集成

2026-06-29

腾讯开源WeKnora详解（二）：知识库与对话核心能力

2026-06-29

RAG又被绕开了，MIT用MEMO给AI外挂记忆脑

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

大家都在问

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw