我要投稿

“生成幻觉”（Hallucination）和“知识时效性”不足引发的架构范式变革

发布日期：2025-10-28 08:27:53 浏览次数： 1538

作者：twt企业IT社区

微信搜一搜，关注“twt企业IT社区”

导读

纯粹依赖 LLM 参数化知识的架构已暴露出其固有缺陷——即“生成幻觉”（Hallucination）和“知识时效性”的不足。RAG（Retrieval-Augmented Generation，检索增强生成）正是为解决这一架构级工程命题而诞生的范式。然而，随着应用场景的深化，RAG 的架构设计变得日益复杂。因此，如何基于实际的业务场景选择合理的RAG架构，是目前业务场景落地必须考虑的一个核心命题。本文将带领读者了解常见的 RAG 从架构设计到智能检索的演化之路。

*本系列文章将对RAG（检索增强生成）进行技术全景解析，上篇请阅读一文读懂RAG：如何解决大模型的幻觉与知识瓶颈？欢迎持续关注。

作者：李杰

专注于Java虚拟机技术、云原生技术领域的探索与研究。

众所周知，在以大语言模型（LLM）为核心的智能应用浪潮中，我们面临的首要挑战并非是模型的规模，而是输出的可靠性与事实支撑。纯粹依赖 LLM 参数化知识的架构已暴露出其固有缺陷——即“生成幻觉”（Hallucination）和“知识时效性”的不足。

RAG（Retrieval-Augmented Generation，检索增强生成）正是为解决这一架构级工程命题而诞生的范式。然而，随着应用场景的深化，RAG 架构本身也在快速演进，已不再是一个简单的“检索 + 生成”的串行管道。

从最初的基础 RAG 链，到引入多阶段检索、Re-ranker 精排，再到集成多模态知识，RAG 的架构设计变得日益复杂。

因此，如何基于实际的业务场景选择合理的RAG架构，是目前业务场景落地必须考虑的一个核心命题。

一、RAG 的架构基石：四层系统蓝图剖析

在传统的语言模型中，生成（Generation）与知识（Knowledge）是割裂的两个世界。RAG（Retrieval-Augmented Generation，检索增强生成）之所以成为当下最具影响力的架构形态，正是因为将“外部知识”与“大模型推理”有机耦合，形成了一个可持续优化、可自我演化的智能知识系统。

在实际的业务场景中，一个成熟的 RAG（检索增强生成）系统绝非简单地将向量数据库连接到 LLM，而是一个设计精巧的四层系统蓝图。在设计时，将每一层视为一个独立且可优化的服务模块，重点关注其在“数据流”与“控制流”中的职能。

从架构设计角度来看，作为一个标准的数据流驱动型系统，RAG 可以拆解为以下四层，具体可参考：

1.输入层（Query Processor）

此层的主要目标为将非结构化的用户意图转化为标准化的、高信号价值的输入，为后续的检索与生成服务奠定基础。具体涉及以下：

（1）预处理与标准化：对原始查询进行文本清洗、停用词过滤和语义扩展。在多轮对话场景中，此处还负责历史上下文的压缩与重写，确保检索信号不受冗余信息干扰。

（2）Prompt构建（Contract Definition）：作为最为核心的一环，系统将问题包装成一个模板化的、适合 LLM 处理的结构化提示。

例如，针对企业知识问答系统，Prompt 模板可能被设计为：“你是一个严谨的文档分析师。请仅基于以下‘内容’回答‘问题’，并准确引用出处，不得编造。”

上述这种模板化设计不仅定义了 LLM 的角色与行为契约，也为检索模块提供了更明确的“上下文信号”，大幅提高了整个系统的一致性与准确度。

输入层不仅是 NLP 任务，更是系统语义规范层。在架构设计中，应为该层建立：

统一的 Prompt 语义规范库
可配置的模板引擎
数据追踪机制，以便于定位用户输入误差

此层的主要流程涉及如下环节，具体可参考：

2.检索层（Retriever）

此层的主要目标是快速、准确地从海量外部知识中找到与用户问题最相联关的片段（Relevant Chunks），并以向量或高维特征的形式交付给生成层。具体涉及如下：

（1）向量化编码（Embedding Model）：选择高性能模型（如 OpenAI text-embedding-3、BGE 等）决定了知识的语义质量。

（2）向量数据库（Vector Store）：选择 FAISS、Milvus 或 Weaviate 等，决定了检索的实时性能与可扩展性。

（3）文档切片与召回：制定合理的 Chunking（文档切片大小）和窗口化召回策略（召回后扩展上下文），是平衡信息完整性与 Token 限制的关键。

需要注意的是，我们需要依据实际的业务场景进行指标评估，尤其是在检索准确率与系统延迟之间进行权衡。通常而言，针对以金融风控、法律咨询等类似的“高精度场景”，可以采用 Hybrid Search（向量 + BM25 关键词）以确保广度，并辅以 Re-ranker 精排模块（如 Cohere Rerank）提升最终送入 LLM 的文档质量。

而针对通用型场景，例如聊天机器人等实时响应的业务，我们可以采用低维嵌入结合向量近似搜索（ANN），牺牲少量精度以确保毫秒级的响应速度。

此层的主要流程涉及如下环节，具体可参考：

3.生成层（Generator）

此层的核心目标为上下文融合与结构化输出，即融合原始问题与检索到的上下文，并依照业务需求生成准确、结构化且符合规范的最终回答。其架构流程具体涉及如下：

（1）Prompt拼接：将检索层返回的知识片段（Context Chunks）填充到输入层定义的Prompt 模板中。

（2）大模型调用：选择合适的 LLM（如 GPT、DeepSeek等）进行推理生成。

（3）后置优化：对 LLM 的原始输出进行处理，包括摘要提炼、引用标注和格式转换。

作为核心层，为保证系统的输出能够准确及合理，在进行逻辑设计时，需要注意如下几点：

（1）Token管理：严格控制拼接后的上下文长度，防止 Token 溢出，这要求与检索层进行紧密协作。

（2）引用链条：必须引导模型生成具备“源引用”（Source Citation）的内容，这是 RAG 可信赖性的标志。

（3）安全审查模块：在企业环境中，生成层通常集成一个安全审查服务，对最终回答进行敏感信息过滤、泄密风险检测和业务规范检查，确保输出符合合规性要求。

此层的主要流程涉及如下环节，具体可参考：

4.反馈层（Evaluator ）

作为让系统学会“复盘与进化”的反馈层，主要将 RAG 系统从一个静态的查询工具升级为一个持续进化、自优化的知识引擎。这是最容易被忽略、但最具架构价值的一层。

通过构建自动化指标和数据回流机制，实现系统的自优化闭环。具体涉及如下：

（1）指标监控：持续监控回答准确率（Faithfulness/Precision）、系统响应延迟和检索召回率（Recall）。

（2）数据回流（Data Retraining）：将用户标记的错误回答和失败的查询作为负样本或需要增强的语料，回流至知识库预处理或模型再训练中。

（3）动态更新：基于新文档的加入或用户反馈，自动触发文档切块、向量化并重建向量索引，确保知识库的时效性和准确性。

基于“反馈”机制，使得系统能够可持续演化、提升知识库新鲜度以及实现“自校准”的智能架构。

此层的主要流程涉及如下环节，具体可参考：

综上，我们可以看到：RAG 的四层设计模式，并非孤立堆叠，而是一个动态协作体系。从架构角度来看：

输入层决定“系统的理解力”；
检索层决定“系统的知识力”；
生成层决定“系统的表达力”；
反馈层决定“系统的进化力”。

最终，一个成熟的 RAG 系统，应该像一个具备学习能力的知识体，不断吸收新信息、反思旧答案、优化自身结构。

这正是未来智能系统架构的方向——从静态逻辑走向动态认知，从代码堆叠迈向知识驱动。

二、RAG 的演进之路：从基础型到智能自适应架构

从架构视角而言，RAG的演进并非简单的组件叠加升级，而是一条清晰的架构纵向逻辑——从静态配置到动态自适应，从单一管线到可调度系统的深刻转变。每一代RAG 架构的演变，实质上是在系统架构中引入了更多具备决策能力的智能中间层。

1.基础型 RAG（Basic RAG）——静态管道

在基础阶段，RAG 追求快速实现功能，其架构特点是线性、静态。用户查询经过简单的向量化后，直接进行一次近似搜索（ANN），将召回的前 K 个文档片段直接拼接到 LLM 的 Prompt 中进行生成。

其技术特点主要体现在如下：

单一向量库：使用如 FAISS 或 Milvus 存储文档嵌入。
静态检索策略：Top-k 最近邻召回，无重排序机制。
Prompt 拼接：简单合并用户问题与检索片段。

在企业知识库问答场景中，Basic RAG 可以直接部署于内部FAQ系统：

用户输入“公司出差补助政策是什么？”，系统从知识库召回最相关文档片段拼接进Prompt，交由LLM生成答案。

作为早期的基础静态管道，RAG实现简单，部署成本低，适用于知识结构简单的 FAQ（常见问题）场景。因此，对于语义复杂的查询、上下文相关性弱以及反馈机制而言，由于其知识适配能力差使其显得力不从心。

Basic RAG的架构示意图可参考如下所示：

2.高级型 RAG（Advanced RAG）——引入智能中间层

在实际的业务场景中，为解决“检索不准、上下文漂移”等问题，开始引入多阶段检索与语义增强模块。

相对于初期的而言，高级型 RAG的核心思想体现在：在检索和生成之间插入智能化的处理模块，以提高召回的精度和质量。这标志着 RAG 架构开始脱离线性管道，向多级处理演进。

具体涉及如下：

（1）多阶段检索：针对复杂问题，引入 Planner（规划器）将一个查询分解成多个子问题，并依次进行检索。这极大地提升了处理复杂逻辑问题的能力。

（2）重排序模型（Reranker）：在检索层和生成层之间插入一个独立的判别模型。它对初次召回的文档进行二次评估，排除噪声，确保只有最相关的高质量文档送入 LLM。

（3）知识图谱增强（KG-RAG）：将部分结构化知识存储于知识图谱（KG）。系统在检索时，同时查询向量库和 KG，利用图谱的语义连接性和实体关系来增强召回。

（4）上下文过滤（Context Filtering）：控制注入Prompt的文档数量与长度，防止Token膨胀。

Advanced RAG的架构示意图可参考如下所示：

虽然，Advanced RAG引入了一系列关键特性，使得跨领域语义理解以及精度方面优势有所提升，但同时也带了一定的延迟，因此，其非常适合于法律、医疗、金融分析类任务等业务场景。

例如，在金融风控问答系统中，我们以“信贷逾期扣费”场景为例，首先进行初步检索：找到与之相关的文档；然后通过Reranker计算每段文本与问题的余弦相似度进行语义精排；接下来基于所保留的条目或文档进行上下文裁剪，最后，基于Prompt拼接并生成引用明确、符合合规要求的回答。

基于此种模式，使得语义对齐率与可审计性显著提升。

3.智能自适应 RAG（Adaptive RAG）——迈向可调度系统

作为演进的高级阶段，Adaptive RAG标志是系统具备自感知与自进化能力。将 RAG 视为一个持续学习、具备自治能力的微服务，核心在于引入了反馈学习和Agent 调度机制。

从架构哲学角度来看，范式由静态配置转为动态决策，使得系统能够根据实时情境和任务类型自适应地调整其内部执行策略。系统不再被动检索，而是主动理解任务上下文，并动态调整检索与生成策略。

其核心特性主要体现在如下：

（1）反馈学习回路：引入 Evaluator（评估器）模块。该模块持续监控回答的准确率和召回率，并将失败案例回流，自动触发知识索引重建或模型微调。

（2）Agent/Router 调度：核心是引入一个智能路由 Agent。该 Agent 在收到查询后，不直接执行 RAG，而是先判断查询的类型（如代码问答、文档问答、FAQ、数据分析）。

（3）自适应策略：根据判断结果，Agent 动态切换 RAG 的内部组件：例如，代码问答使用专门的代码语义检索库；FAQ 使用低延迟的向量近似搜索。

Adaptive RAG的架构示意图可参考如下所示：

由于引入Feedback Controller作为“系统自评估”和“知识更新”的决策职能机制，Adaptive RAG能够在自动优化模板与上下文注入、智能调度避免冗余调用与重复检索等场景中发挥其核心作用，从而实现闭环再训练与知识增量，以满足实际的场景需要。

三、RAG 架构的未来范式展望

综上所述，RAG的未来演化，核心在于实现系统架构的智能自治，将 RAG 从一个被动的、依赖人工维护的工具，升级为主动的、持续进化的知识引擎。

这一未来架构范式体现在三大战略方向，具体可参考：

1.自演化架构

即通过在架构中内置反馈回路（Feedback Loop）和学习型控制器（Learning Controller），实现性能的内生性优化。系统能够基于用户交互和评估指标，自动调整检索策略、切片粒度等参数，打破静态瓶颈，确保系统性能持续逼近最优状态。

2.自治式知识服务

知识维护将从传统的周期性、批处理模式，转向事件驱动的实时机制。架构将建立增量索引服务和知识验证管道，确保知识库能够基于业务事件实时、准确地更新，彻底解决知识的时效性滞后问题。

3.RAG + Agent + Memory 融合生态

这是最终的智能系统形态。RAG 的知识能力、Agent 的决策与行动能力以及 Memory 的情境追踪能力将在架构层面深度融合。Agent 充当总控中心，动态调用 RAG 作为其事实支持工具，同时将行动中产生的经验知识回流至 RAG 知识库，从而构建一个具备动态学习与情境感知能力的智能生态系统。

参考：

1. https://www.deepchecks.com/glossary/rag-architecture/

2. https://k21academy.com/ai-ml/an-overview-of-retrieval-augmented-generationrag-and-ragops/

支持社区支持本文同行观点，请点赞、转发或点击“♡”

欢迎点击文末阅读原文，可以直接看到社区中本文中可能不包括的的全部信息和最新更新

关联推荐：

金融可信AI趋势下，智算存储架构的核心挑战与演进方向是什么？

大型三甲医院网络安全垂域大模型研究与探索分享

如何基于分片 GPU 技术提高算力资源利用率？

中小银行运维管理流程的实践经验（附工具）

欢迎关注社区 “大语言模型”相关内容，了解最新行业同行专家的分享和大家的观点。

地址：https://www.talkwithtrend.com/Topic/154263

长按二维码关注公众号

*本公众号所发布内容仅代表作者观点，不代表社区立场

点击下方↙↙↙阅读原文，更丰富，更精彩

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业