微信扫码
添加专属顾问
我要投稿
RAG技术让大模型像开卷考试一样,先查资料再答题,有效解决幻觉、时效性和数据安全三大难题。 核心内容: 1. RAG如何解决大模型的幻觉、时效性和数据安全问题 2. RAG的工作流程:知识库构建与实时查询 3. 文本分块的重要性及其对检索效果的影响
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索与大语言模型生成相结合的技术框架。其核心思想是:在生成回答或文本前,先从外部知识库中动态检索与用户查询相关的信息,再基于检索结果生成更准确、更可靠的答案。
简单来说就是,RAG让大模型能像“开卷考试”一样,先查资料再答题。
尽管大语言模型已展现出令人瞩目的理解和生成能力,但在实际应用中还面临着幻觉、时效性和数据安全等挑战,而这正是RAG技术被广泛采用的核心价值体现。
一、RAG如何解决LLM的三大痛点
1.幻觉问题:
LLM的生成过程是基于统计概率的token预测,是根据训练语料中的统计模式进行推测。这种机制导致模型在缺乏相关知识时,仍会生成逻辑通顺但内容虚假的回答。
RAG通过引入外部检索结果作为生成依据,将模型输出“锚定”在真实文档片段上,从而显著降低幻觉发生率。例如,在法律、医疗等场景中,RAG确保回答引用自真实文档,而非模型“编造”,且RAG能明确标注回答来源(如“根据2024年Q2财报第3页”),提升可信度。
2.时效性问题:
LLM的训练周期长,知识存在明确的截止日期。对于“今日行情”或“最新进展”等动态问题,模型无法直接回答。
RAG通过实时检索最新文档(如新闻网站、数据库、API 接口),将动态信息注入上下文,使模型无需重新训练即可“知道”当前事件。例如,结合金融数据源的RAG系统可实时分析今日股价波动。
3.数据安全问题:
通用LLM无法访问企业内部数据(如客户档案、合同、代码库),而企业若将此类数据上传至云端模型,则面临隐私泄露和合规风险。
RAG支持本地化部署:企业可将知识库存储在私有服务器或加密环境中,通过检索本地文档生成回答,确保敏感数据“不出域”。例如,银行使用RAG查询内部信息,无需将数据暴露给第三方模型。
二、RAG的工作流程
RAG的工作流程主要有以下两部分:一是知识库构建,二是实时查询。
1.
(1)文档导入:收集结构化/非结构化数据(如PDF、数据库、网页文本)。
(2)文档分块(Chunking):将大文档拆分为语义连贯的小块,按段落、标题或滑动窗口划分,保留上下文关联性。
文本分块是知识库构建的重要步骤,直接影响检索效率和答案相关性。那为什么需要文本分块呢?
一是适配大模型的输入限制,LLM通常有固定的上下文窗口限制(如GPT-4支持32k Token),无法一次性处理长文本。文本分块可将长网页拆解为符合模型输入限制的片段,确保知识库内容能被完整处理。二是提升检索相关性,分块直接影响语义搜索的精度,若块过大,可能包含多个无关主题,导致检索结果混杂噪声;若块过小,则可能丢失关键上下文。合理分块可使每个块聚焦单一主题,提升与用户查询的匹配度。
分块策略也可以考虑不同的场景。例如结构化网页(如论文),可以按章节或标题分块,保留逻辑层级;非结构化文本(如聊天记录),可按固定长度或语义分块;代码/公式,可基于语法分块,避免破坏代码块完整性。
(3)向量化(Embedding):使用Embedding(有的场景下Embedding译为嵌入)模型将文本块转换为高维向量(如512维/1536维)。
Embedding帮助模型理解如语言所代表的“含义”,核心目标是获取信息的特征“相关性”。嵌入过程把离散的token序列压缩成固定维度的向量,使语义被编码为空间中的方向与距离。
如果两个文本语义相似,则它们的向量距离近,反之则远。例如,"猫"和"犬"映射到相近向量空间,而"猫"与"汽车"则距离较远。
相似度计算一般通过余弦相似度衡量向量距离,向量距离近,则余弦相似度≈1。
例如:"跑步"与"慢跑"相似度>0.85,而"跑步"与"游泳"相似度<0.3。
再举一个经典的例子来理解,国王-男人+女人=女王,即:
向量(女王)≈向量(国王)−向量(男人)+向量(女人)。
Embedding我打算在具体介绍transformer系列的文章中再细讲。
(4)存储:向量存入向量数据库。
2.实时查询阶段,主要是用户查询 → 检索 → 增强→ 生成,四步流水线。
(1)用户查询即用户输入自然语言问题。
(2)检索:当用户提问时,嵌入模型会从知识库中检索相关信息,为提示提供更多上下文。
先将用户查询转换为高维向量,在向量数据库中进行相似性匹配,找出与查询向量最相似的Top-k文本块(如k=5),提取匹配文本块的原始内容。
(3)增强:将检索结果与原始查询拼接,形成上下文丰富的提示(Prompt)。
将检索到的上下文与用户查询组合为结构化提示,例如,构造如下提示词:
```
[系统指令] 基于以下上下文回答问题:
<检索到的文本块1>
...
<检索到的文本块k>
[问题]:用户原始问题
```
(4)生成:LLM基于增强后的提示,输出对用户问题的答案。
RAG通过“检索+生成”的协同机制,平衡了检索的精确性与生成的灵活性,相比微调或长上下文方案,RAG仅需轻量级向量数据库与现成Embedding模型即可,新增知识无需重新训练,显著降低算力与人力成本,做到“低成本、高可信”的性价比最优解。RAG必将成为企业数字化转型的标配!
注:本篇部分内容由AI辅助,图片由AI生成。
写在最后:
写这个公众号的原因,我在AI咖啡馆那篇中有展开讲,主要有三个目的:
一是以写促学,实践费曼学习法,用输出倒逼输入;
二是通过把知识分成小份装,帮助读者碎片化时间学AI,带动大家共学AI;
三是未来能建立AI社群,独乐乐变成众乐乐。
欢迎大家一起AI学习来~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-05-30
2025-06-05
2025-06-06
2025-05-19
2025-06-05
2025-05-20
2025-05-27
2025-06-05
2025-05-19
2025-06-05
2025-08-11
2025-08-05
2025-07-28
2025-07-09
2025-07-04
2025-07-01
2025-07-01
2025-07-01