我要投稿

RAG 信息检索：如何让模型找到‘对的知识’

发布日期：2025-06-14 16:35:10 浏览次数： 1790

作者：算法coting

微信搜一搜，关注“算法coting”

1.前言

RAG飞速发展，成为连接“生成能力”与“外部知识”的桥梁，关于RAG的介绍可以参考
什么是RAG？一文搞懂检索增强生成技术。

前面我们介绍了RAG系统中的文档解析，
RAG 的文档解析：PDF 篇，在解析文档得到数据后，由于数据规模很可能非常庞大，整体存储具有难度，并且在查询的时候可能仅仅和其中的一个或几个段落有关系，所以需要分块技术将解析后的文档内容切分为适当的片段
一分钟读懂RAG的切分策略。

切分完成后，需要将内容存储到向量数据库以供后续检索
RAG-embedding篇。

在RAG系统中，生成效果的好坏，往往不取决于模型本身有多“聪明”，而是它是否能“查对资料”。通俗地说，RAG 的本质是一种“开卷考试”：模型并不靠死记硬背，而是通过查找外部知识库来作答。如果查的资料靠谱、精确、上下文合理，回答自然逻辑清晰、信息详实；反之，如果检索不到关键内容，生成再强的模型也只能“睁眼说瞎话”。

2.embedding生成

2.1文档段落嵌入

在 RAG 系统中，原始文档（无论是论文、网页、PDF 还是 Markdown）首先会被切分成若干逻辑段落。这些段落随后会被送入嵌入模型中转化为向量，也就是一串浮点数，代表了这段话的语义特征。这个过程就叫做文档段落嵌入。

例如：

"气候变暖的主要原因是温室气体排放。" → [0.12, -0.38, ..., 0.77]
"新能源汽车有助于减少碳排放。" → [0.14, -0.42, ..., 0.81]

这两个段落的向量非常相近，因为它们都和“环境”与“碳排放”有关。

嵌入后的段落会被存储进向量数据库，为后续检索做准备。注意：切分策略越合理，嵌入效果越稳定。否则，一个乱七八糟的句子，即使变成向量，也不会“靠近”它真正应该靠近的知识点。

2.2 用户查询嵌入

用户在提问时，并不是直接丢问题给语言模型，而是先把问题送进同一个嵌入模型中，转换成查询向量。这一步称为用户查询嵌入。

举个例子：

用户提问：“如何减少碳排放？”
嵌入后 → [0.15, -0.41, ..., 0.79]

此时，系统就会在向量数据库中查找和这个查询向量最接近的文档段落向量，通常是 Top-K 个。比如：

·段落1：“推广新能源车有助于碳中和”

·段落2：“工业废气治理是重要手段”

·段落3：“碳捕捉技术日益成熟”

然后，把这些相关段落拼成上下文，送给大模型生成最终回答。

3、相似度检索

文档向量和查询向量都有了，接下来就是“看谁更像谁”的时刻了。这一步叫做相似度检索。简单来说，就是：把用户提问转成向量，然后在海量文档向量查找目标向量。

3.1常见检索方式

·Top-K 检索：最常用的一种方式，找到与查询向量最相近的 K 个文档段落。

·MMR（Maximal Marginal Relevance）：一种既考虑相关性又考虑多样性的策略。防止检索结果全是“同义句”，更利于生成丰富、全面的答案。

但是上述基础的检索方式有时候还不能满足高精度要求，于是又出现了Rerank等检索方法。

3.2 Reranker 二次排序

在 RAG（Retrieval-Augmented Generation）中，初始的向量检索阶段可能会返回 Top-K 个“相关性还不错”的段落，但这些段落：

·有可能相关性不够强；

·有可能缺乏真正回答问题的能力；

·有可能风格、语义重复，影响生成效果。

于是，我们需要 Reranker（重排序器） —— 就像在初筛简历后，HR 还要对候选人深入面试，挑出真正合适的人。

Reranker 通常使用一个更强大的双塔模型（bi-encoder）或交叉编码器（cross-encoder），对用户查询与候选文档段落进行语义匹配打分，并按照分数排序。

流程如下：

1.用户输入问题，进行 embedding；

2.在向量数据库中查出 Top-K 相关片段；

3.将查询和每个候选片段组成对；

4.使用 Reranker 模型对每对文本打分；

5.按照分数排序，取前 N 个作为最终的上下文输入给 LLM。

举个例子：

用户提问：「如何快速训练一个文本分类模型？」

初步向量检索返回：

1.文本分类的数据预处理技巧。

2.文本生成与摘要的方法。

3.深度学习在图像分类中的应用。

4.sklearn 的 SVM 使用教程。

此时 reranker 会“再面试一次”，给出排序如下：

1.文本分类的数据预处理技巧。（高相关）

2.sklearn 的 SVM 使用教程。（中相关）

3.深度学习在图像分类中的应用。（不相关）

4.文本生成与摘要的方法。（不相关）

最终仅保留 Top-2 给大模型参考，大大减少“答非所问”的概率。

除了Reranker，还有Query Expansion（多查询扩展），也就是一个问题通过同义词扩展、问题改写（prompt-based query rewrite）或者利用 LLM 自动生成多个子问题换着法儿问，有时能搜到不同角度的答案。

4、小结

信息检索阶段对于RAG无疑是很重要的一环，你可以训练最先进的 LLM，但如果它检索不到关键内容，最终生成的结果也只能“编个差不多”。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-29

RAG—Chunking策略实战｜得物技术

2025-10-29

RAG 让你的 AI 更聪明

2025-10-28

多少做RAG的人，连分词都搞不定? Milvus Analyzer指南

2025-10-28

先分块再向量化已经过时！先embedding再chunking才是王道

2025-10-28

AI检索增强中路由模型的使用

2025-10-28

HybRAG：混合文本和知识图谱的RAG框架

2025-10-28

“生成幻觉”（Hallucination）和“知识时效性”不足引发的架构范式变革

2025-10-27

RAG优化技巧

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

2025-09-02

响应速度提升300%、检索准确率90%：RAG如何让企业知识“活”起来赚钱？

2025-08-05

优化 GraphRAG：LightRAG的三大改进

2025-08-18

RAG系统全景：架构详解与落地实践指南

2025-08-25

高质量AI知识库应用的前提：选对向量数据库

2025-08-25

一文搞懂大模型：何为深入理解RAG？

2025-08-25

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

万字长文详解腾讯优图RAG技术的架构设计与创新实践

2025-09-08

大家都在问

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

RAG检索后如何应用更有效？

2025-08-28

一文搞懂大模型：何为深入理解RAG？

2025-08-25

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB