我要投稿

检索增强生成（RAG）：让AI拥有“知识库”能力

发布日期：2025-08-11 18:43:52 浏览次数： 1693

作者：AI思享咖啡屋

微信搜一搜，关注“AI思享咖啡屋”

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与大语言模型生成相结合的技术框架。其核心思想是：在生成回答或文本前，先从外部知识库中动态检索与用户查询相关的信息，再基于检索结果生成更准确、更可靠的答案。

简单来说就是，RAG让大模型能像“开卷考试”一样，先查资料再答题。

尽管大语言模型已展现出令人瞩目的理解和生成能力，但在实际应用中还面临着幻觉、时效性和数据安全等挑战，而这正是RAG技术被广泛采用的核心价值体现。

一、RAG如何解决LLM的三大痛点

1.幻觉问题：

LLM的生成过程是基于统计概率的token预测，是根据训练语料中的统计模式进行推测。这种机制导致模型在缺乏相关知识时，仍会生成逻辑通顺但内容虚假的回答。

RAG通过引入外部检索结果作为生成依据，将模型输出“锚定”在真实文档片段上，从而显著降低幻觉发生率。例如，在法律、医疗等场景中，RAG确保回答引用自真实文档，而非模型“编造”，且RAG能明确标注回答来源（如“根据2024年Q2财报第3页”），提升可信度。

2.时效性问题：

LLM的训练周期长，知识存在明确的截止日期。对于“今日行情”或“最新进展”等动态问题，模型无法直接回答。

RAG通过实时检索最新文档（如新闻网站、数据库、API 接口），将动态信息注入上下文，使模型无需重新训练即可“知道”当前事件。例如，结合金融数据源的RAG系统可实时分析今日股价波动。

3.数据安全问题：

通用LLM无法访问企业内部数据（如客户档案、合同、代码库），而企业若将此类数据上传至云端模型，则面临隐私泄露和合规风险。

RAG支持本地化部署：企业可将知识库存储在私有服务器或加密环境中，通过检索本地文档生成回答，确保敏感数据“不出域”。例如，银行使用RAG查询内部信息，无需将数据暴露给第三方模型。

二、RAG的工作流程

RAG的工作流程主要有以下两部分：一是知识库构建，二是实时查询。

知识库构建：在检索之前，需要先将文档导入并预处理，通常是将大文档拆分成较小的块，转换为文本嵌入向量并存储到向量数据库中。

（1）文档导入：收集结构化/非结构化数据（如PDF、数据库、网页文本）。

（2）文档分块（Chunking）：将大文档拆分为语义连贯的小块，按段落、标题或滑动窗口划分，保留上下文关联性。

文本分块是知识库构建的重要步骤，直接影响检索效率和答案相关性。那为什么需要文本分块呢？

一是适配大模型的输入限制，LLM通常有固定的上下文窗口限制（如GPT-4支持32k Token），无法一次性处理长文本。文本分块可将长网页拆解为符合模型输入限制的片段，确保知识库内容能被完整处理。二是提升检索相关性，分块直接影响语义搜索的精度，若块过大，可能包含多个无关主题，导致检索结果混杂噪声；若块过小，则可能丢失关键上下文。合理分块可使每个块聚焦单一主题，提升与用户查询的匹配度。

分块策略也可以考虑不同的场景。例如结构化网页（如论文），可以按章节或标题分块，保留逻辑层级；非结构化文本（如聊天记录），可按固定长度或语义分块；代码/公式，可基于语法分块，避免破坏代码块完整性。