支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


检索增强生成(RAG):让AI拥有“知识库”能力​​

发布日期:2025-08-11 18:43:52 浏览次数: 1514
作者:AI思享咖啡屋

微信搜一搜,关注“AI思享咖啡屋”

推荐语

RAG技术让大模型像开卷考试一样,先查资料再答题,有效解决幻觉、时效性和数据安全三大难题。

核心内容:
1. RAG如何解决大模型的幻觉、时效性和数据安全问题
2. RAG的工作流程:知识库构建与实时查询
3. 文本分块的重要性及其对检索效果的影响

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

RAGRetrieval-Augmented Generation,检索增强生成)是一种将信息检索与大语言模型生成相结合的技术框架。其核心思想是:在生成回答或文本前,先从外部知识库中动态检索与用户查询相关的信息,再基于检索结果生成更准确、更可靠的答案

简单来说就是,RAG让大模型能像“开卷考试”一样,先查资料再答题

尽管大语言模型已展现出令人瞩目的理解和生成能力,但在实际应用中面临幻觉、时效性和数据安全挑战,而这正是RAG技术被广泛采用的核心价值体现

一、RAG如何解决LLM的三大痛点

1.幻觉问题:

LLM的生成过程是基于统计概率的token预测,是根据训练语料中的统计模式进行推测。这种机制导致模型在缺乏相关知识时,仍会生成逻辑通顺但内容虚假的回答。

RAG通过引入外部检索结果作为生成依据,将模型输出“锚定”在真实文档片段上,从而显著降低幻觉发生率。例如,在法律、医疗等场景中,RAG确保回答引用自真实文档,而非模型“编造”,RAG能明确标注回答来源(如“根据2024Q2财报第3页”),提升可信度。

2.时效性问题:

LLM的训练周期长知识存在明确的截止日期。对于“今日行情”或“最新进展”等动态问题,模型无法直接回答。

RAG通过实时检索最新文档(如新闻网站、数据库、API 接口),将动态信息注入上下文,使模型无需重新训练即可“知道”当前事件。例如,结合金融数据源的RAG系统可实时分析今日股价波动。

3.数据安全问题:

通用LLM无法访问企业内部数据(如客户档案、合同、代码库),而企业若将此类数据上传至云端模型,则面临隐私泄露和合规风险。

RAG支持本地化部署:企业可将知识库存储在私有服务器或加密环境中,通过检索本地文档生成回答,确保敏感数据“不出域”。例如,银行使用RAG查询内部信息,无需将数据暴露给第三方模型。

二、RAG的工作流程

RAG的工作流程主要有以下两部分:一是知识库构建,二是实时查询。

 1.

知识库构建:在检索之前,需要先将文档导入并预处理,通常是将大文档拆分成较小的块,转换为文本嵌入向量并存储到向量数据库中。

1)文档导入:收集结构化/非结构化数据(如PDF、数据库、网页文本)。 

2文档分块(Chunking):将大文档拆分为语义连贯的小块,按段落、标题或滑动窗口划分,保留上下文关联性。

文本分块是知识库构建的重要步骤,直接影响检索效率和答案相关性。那为什么需要文本分块呢?

一是适配大模型的输入限制,LLM通常有固定的上下文窗口限制(如GPT-4支持32k Token),无法一次性处理长文本。文本分块可将长网页拆解为符合模型输入限制的片段,确保知识库内容能被完整处理。二是提升检索相关性,分块直接影响语义搜索的精度,若块过大,可能包含多个无关主题,导致检索结果混杂噪声;若块过小,则可能丢失关键上下文。合理分块可使每个块聚焦单一主题,提升与用户查询的匹配度。

分块策略也可以考虑不同的场景。例如结构化网页如论文),可以按章节或标题分块,保留逻辑层级非结构化文本(如聊天记录),可按固定长度或语义分块代码/公式,可基于语法分块,避免破坏代码块完整性

3向量化(Embedding:使用Embedding(有的场景下Embedding译为嵌入)模型将文本块转换为高维向量(如512/1536维)。

Embedding帮助模型理解如语言所代表的“含义”,核心目标是获取信息的特征“相关性”。嵌入过程把离散的token序列压缩成固定维度的向量,使语义被编码为空间中的方向与距离。

如果两个文本语义相似,则它们的向量距离近,反之则远。例如,""""映射到相近向量空间,而"""汽车"则距离较远。

相似度计算一般通过余弦相似度衡量向量距离,向量距离近,则余弦相似度1

例如:"跑步""慢跑"相似度>0.85,而"跑步""游泳"相似度<0.3

再举一个经典的例子来理解国王-男人+女人=女王,即:

向量(女王)≈向量(国王)−向量(男人)+向量(女人)

Embedding我打算在具体介绍transformer系列的文章中再细讲。

4)存储:向量存入向量数据库。 

2.实时查询阶段,主要是用户查询 → 检索 → 增强→ 生成,四步流水线。

1)用户查询即用户输入自然语言问题。

2)检索:当用户提问时,嵌入模型会从知识库中检索相关信息,为提示提供更多上下文。

先将用户查询转换为高维向量,在向量数据库中进行相似性匹配,找出与查询向量最相似的Top-k文本块(如k=5),提取匹配文本块的原始内容。

3)增强:将检索结果与原始查询拼接,形成上下文丰富的提示(Prompt)。

将检索到的上下文与用户查询组合为结构化提示,例如,构造如下提示词: 

```  

[系统指令基于以下上下文回答问题:  

<检索到的文本块1>  

...  

<检索到的文本块k>  

[问题]:用户原始问题  

```  

4)生成:LLM基于增强后的提示,输出对用户问题的答案。


RAG通过“检索+生成”的协同机制,平衡了检索的精确性与生成的灵活性,相比微调或长上下文方案,RAG仅需轻量级向量数据库与现成Embedding模型即可,新增知识无需重新训练,显著降低算力与人力成本,做到“低成本、高可信的性价比最优解。RAG将成为企业数字化转型的标配!


注:本篇部分内容由AI辅助,图片由AI生成。


写在最后:

写这个公众号的原因,我在AI咖啡馆那篇中有展开讲,主要有三个目的:

一是以写促学,实践费曼学习法,用输出倒逼输入;

二是通过把知识分成小份装,帮助读者碎片化时间学AI,带动大家共学AI

三是未来能建立AI社群,独乐乐变成众乐乐。

欢迎大家一起AI学习来~


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询