我要投稿

告别 RAG，拥抱 CAG：知识任务的革新之路

发布日期：2025-05-18 10:47:22 浏览次数： 1755

作者：Grafana 爱好者

微信搜一搜，关注“Grafana 爱好者”

在人工智能技术飞速发展的今天，大语言模型（LLM）已成为自然语言处理领域的核心力量。为了增强 LLM 处理知识密集型任务的能力，检索增强生成（RAG）曾一度成为主流方案。然而，RAG 在实际应用中暴露出检索延迟、文档选择错误、系统复杂度高等诸多问题。随着长上下文 LLM 的出现，一种全新的范式 —— 缓存增强生成（CAG）应运而生，为知识任务的处理带来了颠覆性的变革。

CAG 的核心原理：预加载与缓存的巧妙结合

CAG 充分利用长上下文 LLM 强大的信息容纳能力，其核心机制在于预加载和缓存技术的深度融合。在实际操作中，CAG 的运行主要分为三个阶段，每个阶段都蕴含着独特的技术逻辑。

外部知识预加载

在 CAG 系统启动前，需要对与目标应用相关的精选文档集合进行预处理。这一过程包含文本清洗、格式统一等操作，将原始文档转化为适合 LLM 处理的形式。随后，LLM 会通过一系列复杂的神经网络计算，对文档集合进行编码。在这个过程中，LLM 会将文本信息转化为内部可识别的语义向量表示，并存储在键值（KV）缓存中。这个预计算的 KV 缓存就如同一个 “知识仓库”，它封装了 LLM 对文档集合的推理状态。值得注意的是，无论后续有多少查询请求，处理文档集合的计算成本仅需承担一次，大大降低了系统的整体计算开销。

推理

当用户输入查询时，系统会将预计算的 KV 缓存与用户查询一同加载到 LLM 中。此时，LLM 内部的注意力机制会在预加载的知识上下文和用户查询之间建立联系，通过对 KV 缓存中语义向量的快速检索和匹配，提取与查询相关的知识信息。随后，LLM 基于提取的信息，结合自身的语言生成能力，逐步生成响应。由于所有相关知识已提前存储在 KV 缓存中，整个推理过程无需进行实时检索，避免了检索延迟和错误，能够快速、准确地生成答案。

缓存重置

为了确保 CAG 系统在多个推理会话中始终保持高效运行，缓存重置机制发挥着关键作用。由于 KV 缓存以只追加的方式增长，随着推理次数的增加，缓存中的数据量会不断增大。当缓存占用的内存资源达到一定阈值，或者需要处理新的文档集合时，就需要对缓存进行重置。CAG 的缓存重置操作十分高效，它通过截断新增的令牌来实现快速重新初始化，无需从磁盘重新加载整个缓存，极大地节省了时间和资源，保证了系统的持续快速响应。

CAG 对比 RAG：全方位的优势凸显

CAG 实验对比数据：

简单概括：

对比维度	RAG	CAG
效率（响应时间）	处理任务需实时检索，耗时较长，大数据集场景下响应时间大幅延长	通过预加载和缓存机制，推理过程流畅迅速，在各类规模数据处理中响应时间均显著短于 RAG
准确性	检索质量依赖算法和文档选择，易出现检索偏差导致答案不准确	将所有相关知识一次性预加载，为模型提供完整统一的上下文环境，生成答案更准确、贴合上下文
系统架构复杂度	需集成多个组件，系统结构复杂，开发和维护成本高	简化架构，减少组件交互与协调，开发维护难度和成本更低

CAG 的应用前景与展望

当前，各个厂商也在不断突破模型上下文的限制， OpenAI 最新发布的 GPT-4.1 支持百万级 Token 上下文处理能力，可一次性解析超 50 万字的长篇内容；谷歌 Gemini Advanced 在 2025 年 3 月更新后，上下文窗口扩展至 100 万 Token，结合 Flash Thinking 2.0 技术，能在复杂任务中实现推理效率的显著提升。

国内厂商同样成绩斐然，阿里通义千问 Qwen2.5-Turbo 凭借稀疏注意力机制，将 100 万 Token 的处理时间从 4.9 分钟缩短至 68 秒；国家超算互联网平台上线的 MiniMax-Text-01 更实现了 400 万 Token 的超长上下文支持。

这些技术突破使得 CAG 能够处理更庞大的知识集合。未来，随着上下文窗口向千万级 Token 迈进，CAG 有望在企业级知识管理、科学研究辅助、复杂流程自动化、多模态内容生成等领域实现深度应用。同时，随着模型架构的持续优化（如 MoE 混合专家、线性注意力等），CAG 将进一步降低计算成本，推动人工智能技术在更多领域实现深度融合与创新应用，有望成为知识任务处理的主流范式。