我要投稿

从朴素 RAG 到 Agentic RAG的五阶段：静态线性流程升级为智能自主系统

发布日期：2025-11-10 17:41:54 浏览次数： 1897

作者：究模智

微信搜一搜，关注“究模智”

大型语言模型（LLM）的爆发式发展，让AI具备了类人文本生成与复杂语言理解能力，但知识静态化与幻觉生成两大痛点始终制约其落地——LLM的知识局限于训练数据截止时间，且常生成无事实依据的内容。检索增强生成（Retrieval-Augmented Generation, RAG）技术应运而生，通过“外部知识检索+LLM生成”的融合模式，为LLM装上可更新的外挂知识库，成为解决上述痛点的核心方案。

RAG的演进并非一蹴而就，而是伴随LLM能力升级与行业需求深化，逐步从简单的“检索-生成”流水线，发展为具备动态决策、多模态处理、智能协作能力的复杂系统。本文基于《GENTIC RETRIEVAL-AUGMENTED GENERATION: A SURVEY ON AgentIC RAG》论文将RAG的发展划分为朴素 RAG、高级 RAG、模块化 RAG、图 RAG、Agentic RAG五个阶段，清晰呈现了从静态线性流程到智能自主系统的技术跃迁（文末附论文下载）。

第一阶段：朴素 RAG（Naive RAG）

朴素 RAG重点关注基于关键词的检索和静态数据集。这些系统依赖于简单的基于关键词的检索技术（例如 TF-IDF 和 BM25），从静态数据集中获取文档，然后将检索到的文档用于增强语言模型的生成能力。

朴素 RAG 是 RAG 技术的最简实现形态，采用严格的线性三步流程，所有后续演进均以此为基础：

索引阶段（离线）：将多源文档（如维基百科、企业手册）按固定长度切割为文本块（Chunks），通过基础 Embedding 模型转换为向量，存储于向量数据库（如 FAISS）中。
检索阶段（在线）：用户查询经相同 Embedding 模型转换后，通过余弦相似度等算法从数据库中召回 Top-K 相关文本块。
生成阶段：将“查询 + 检索文本块” 直接拼接为 Prompt，输入 LLM 生成回答。

作为奠基性架构，朴素 RAG 的短板在于：

缺乏上下文意识：由于依赖词汇匹配而不是语义理解，检索到的文档往往无法捕捉查询的语义细微差别。
输出碎片化：缺乏高级预处理或上下文整合往往会导致不连贯或过于笼统的响应。
可扩展性问题：基于关键词的检索技术难以处理大型数据集，常常无法识别最相关的信息。

第二阶段：高级 RAG（Advanced RAG）

随着 RAG 在知识密集型任务中应用普及，朴素 RAG 的检索质量决定生成效果问题凸显。2021-2023 年间，微软、谷歌等机构通过碎片化技术创新，逐步形成高级 RAG 体系，核心目标是通过全流程优化提升检索精度与上下文质量。

高级 RAG 克服了朴素 RAG 的局限性，融合了语义理解和增强的检索技术。下图展示了高级 RAG 中语义增强的检索机制以及迭代式、上下文感知的流程。这些系统利用密集检索模型和神经排序算法来提高检索精度。高级 RAG 的主要功能包括：

密集向量搜索：查询和文档在高维向量空间中表示，从而能够更好地实现用户查询和检索到的文档之间的语义对齐。
上下文重排序：神经模型对检索到的文档进行重新排序，以优先考虑与上下文最相关的信息。
迭代检索：高级 RAG 引入了多跳检索机制，能够跨多个文档进行推理，以处理复杂的查询。

高级 RAG 在朴素 RAG 基础上新增预检索处理（Pre-Retrieval）与后检索处理（Post-Retrieval）两大模块，关键创新包括：

预检索优化（提升检索输入质量）：

数据层面：引入元数据增强（如文档发布时间、领域标签）、冗余信息清洗，提升索引数据密度。

查询层面：提出 Query 改写（Rewrite）、扩展（Expansion）与分解（Decomposition）技术，通过生成虚拟答案文档提升检索语义对齐度。

后检索优化（提升检索输出质量）：

重排序（Reranking）：采用交叉编码器（如 Cohere Rerank）对初检结果二次评分，过滤噪声文档，可将检索相关性提升 30% 以上。

上下文压缩：针对 LLM 上下文窗口限制，提取文本块核心信息，避免信息过载。

高级 RAG 的核心进步是从被动检索到主动优化，但其仍存在局限：

各优化技术呈碎片化，未形成统一架构。
流程仍为线性，无法动态调整检索策略。
缺乏对多源数据的协同处理能力。

第三阶段：模块化 RAG（Modular RAG）

高级 RAG 的优化技术叠加导致系统复杂度激增，传统线性架构难以维护与扩展。2024 年 Yunfan Gao 等人在《Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks》中首次系统化提出模块化架构，核心思路是将 RAG 拆解为可插拔、可复用的独立模块。

模块化 RAG 强调灵活性和定制化，将检索和生成流程分解为独立的、可重用的组件，从而实现特定领域的优化和任务适应性。下图展示了模块化架构，重点介绍了混合检索策略、可组合的流程以及外部工具集成。

模块化 RAG 的主要创新点包括：

混合检索策略：将稀疏检索方法与密集检索技术相结合以最大限度地提高各种查询类型的准确性。
工具集成：整合外部 API、数据库或计算工具来处理专门的任务，例如实时数据分析或特定领域的计算。
可组合可复用：模块化 RAG 允许检索器、生成器和其他组件独立地进行替换、增强或重新配置，从而能够高度适应特定的用例。

模块化 RAG的核心优势与局限：

优势：通过热插拔特性实现快速定制，例如金融场景替换FinBERT 嵌入模块，医疗场景新增隐私脱敏模块；编排模块支持条件分支逻辑，突破线性流程限制。
局限：模块间协同依赖人工预设规则，缺乏自主决策能力；未解决碎片化知识的关系推理问题。

第四阶段：图 RAG（Graph RAG）

前三个阶段的 RAG 均以 “文本块” 为核心处理单元，难以捕捉实体间的复杂关联，在医疗诊断、法律推理等任务中表现不足。图 RAG 的诞生旨在通过整合知识图谱的结构化优势，强化 RAG 的多跳推理与关系理解能力。

Graph RAG 被定义为文本检索与图检索的深度融合架构，其特点在于：

节点连接性：捕获和分析实体之间的关系。
层级式知识管理：通过基于图的层级结构处理结构化和非结构化数据。
上下文丰富化：利用基于图的路径增加关系理解。

然而，Graph RAG 也存在一些局限性：

可扩展性有限：图结构扩展成本高，海量数据下检索效率下降。
数据依赖性：对高质量图数据依赖度极高，低质量实体关系易导致推理偏差。
集成的复杂性：将图数据与非结构化检索系统集成会增加设计和实现的复杂性。

第五阶段：Agentic RAG（智能体驱动 RAG）

论文将 Agentic RAG 定位为 “RAG 技术的终极演进形态”，其诞生源于前四阶段架构的共同瓶颈：缺乏自主感知、规划与优化能力。面对时序分析、跨领域研究等动态任务，静态架构无法应对不确定性。

Agentic RAG 的本质是将自主智能体嵌入 RAG 架构，每个智能体包含四大基础模块：

LLM 引擎：智能体的大脑，负责推理决策与角色定位。
双记忆系统：短期记忆追踪对话状态，长期记忆存储历史经验与知识。
规划机制：通过任务分解、步骤排序实现复杂目标拆解。
工具集：整合检索器、API、计算器等外部能力。

Agentic RAG的四大核心能力：

自主规划与任务分解：如 “分析某公司投资价值” 任务，智能体自动拆解为 “财务数据检索→政策检索→竞品对比” 子步骤。
反思与迭代优化：通过评估器智能体验证结果质量，自动触发二次检索或查询重写，可将幻觉率降低 50%。
多智能体协作：如 “协调者 + 检索者 + 推理者 + 生成者” 分工模式，AutoGen、CrewAI 等框架支持动态角色分配。
动态工具选择：根据任务类型自主调用适配工具，如实时数据查询调用网页搜索 API，结构化数据查询调用数据库工具。

尽管 Agentic RAG 具备许多优势，但它仍然面临一些挑战：

协调复杂性：管理智能体之间的交互需要复杂的协调机制。
计算开销：使用多个智能体会增加复杂工作流程的资源需求。
可扩展性限制：虽然系统具有可扩展性，但其动态特性可能会在高查询量的情况下给计算资源带来压力。

表：RAG 演进的五个阶段

小结

RAG 的五阶段演进，本质是解决 LLM 知识局限的需求驱动下，技术从简单工具向智能系统的升级过程。Agentic RAG 也并非要替代前序阶段架构，而是通过智能体调度实现按需选用最优模块组合，例如简单查询调用朴素 RAG 流程，复杂推理使用图 RAG 或者 Agentic RAG，逐步实现更精准、更高效、更智能、更贴合行业需求的目标。