RAG 使用Rerank和两阶段检索来提升你的检索质量

发布日期：2024-08-22 08:55:59 浏览次数： 3128

作者：知识派

微信搜一搜，关注“知识派”

RAG 使用Rerank和两阶段检索来提升你的检索质量

检索增强生成 (RAG)是一个含义丰富的术语。它向世界许诺，但在开发出 RAG 管道后，我们中的许多人仍然在疑惑，为什么它的效果不如我们预期的那样好。

与大多数工具一样，RAG 易于使用但难以掌握。事实是，RAG 不仅仅是将文档放入矢量数据库并在上面添加 LLM。

这可以奏效，但并不总是如此。

本文中将介绍通常最简单、最快速地实施次优 RAG 管道的解决方案 — 我们将学习重新排序器。

回忆与上下文窗口

在开始讨论解决方案之前，我们先来谈谈这个问题。使用 RAG，我们可以对许多文本文档执行语义搜索— 这些文档可能有数万个，甚至数百亿个。

为了确保大规模搜索时间短，我们通常使用向量搜索 - 也就是说，我们将文本转换为向量，将它们全部放入向量空间，然后使用相似度度量（如余弦相似度）比较它们与查询向量的接近度。

要使向量搜索发挥作用，我们需要向量。这些向量本质上是将一些文本背后的“含义”压缩为（通常）768 或 1536 维向量。由于我们将这些信息压缩为单个向量，因此会有一些信息丢失。

由于这种信息丢失，我们经常看到前三个（例如）向量搜索文档会丢失相关信息。不幸的是，检索可能会返回低于我们的top_k截止值的相关信息。

如果较低位置的相关信息可以帮助我们的 LLM 制定更好的响应，我们该怎么办？最简单的方法是增加我们返回的文档数量（增加top_k）并将它们全部传递给 LLM。

我们在这里要衡量的指标是召回率— 即“我们检索了多少相关文档”。召回率不考虑检索到的文档总数 — 因此我们可以破解该指标，通过返回*所有内容来获得完美的召回率。

不幸的是，我们无法返回所有内容。LLM 对我们可以传递给它们的文本量有限制——我们称此限制为上下文窗口。一些 LLM 具有巨大的上下文窗口，例如 Anthropic 的 Claude，其上下文窗口有 100K 个标记 [1]。这样，我们可以容纳数十页的文本——那么我们是否可以返回许多文档（不是全部）并“填充”上下文窗口以提高召回率？

再次强调，不行。我们不能使用上下文填充，因为这会降低 LLM 的召回性能——请注意，这是 LLM 召回，与我们迄今为止讨论的检索召回不同。

LLM 回忆能力是指 LLM 从其上下文窗口内的文本中查找信息的能力。研究表明，随着我们在上下文窗口中放入更多标记，LLM 回忆能力会下降 [2]。当我们填充上下文窗口时，LLM 也不太可能遵循指令 — 因此上下文填充不是一个好主意。

我们可以增加向量数据库返回的文档数量以提高检索召回率，但如果不损害 LLM 召回率，我们就无法将这些文档传递给我们的 LLM。

解决此问题的方法是通过检索大量文档来最大化检索召回率，然后通过最小化进入 LLM 的文档数量来最大化 LLM 召回率。为此，我们对检索到的文档进行重新排序，只保留与我们的 LLM 最相关的文档 — 为此，我们使用重新排序。

强大的重排器

Rerank 模型（也称为交叉编码器）是一种模型，给定查询和文档对，它将输出相似度分数。我们使用此分数根据与查询的相关性对文档进行重新排序。

搜索引擎工程师早已在两阶段检索系统中使用重新排序器。在这些两阶段系统中，第一阶段模型（嵌入模型/检索器）从较大的数据集中检索一组相关文档。然后，使用第二阶段模型（重新排序器）对第一阶段模型检索到的文档进行重新排序。

我们使用两个阶段，因为从大型数据集中检索一小组文档比对大型文档进行重新排序要快得多 - 我们将很快讨论为什么会出现这种情况 - 但 TL;DR，重新排序器很慢，而检索器很快。

为什么要使用 Rerankers？

如果重新排序器的速度如此之慢，为什么还要使用它们呢？答案是重新排序器比嵌入模型准确得多。

双编码器准确率低的原因在于，双编码器必须将文档的所有可能含义压缩为一个向量，这意味着我们会丢失信息。此外，双编码器没有查询上下文，因为我们在收到查询之前并不知道查询内容（我们在用户查询之前创建嵌入）。

另一方面，重新排序器可以将原始信息直接接收到大型转换器计算中，这意味着信息损失更少。由于我们在用户查询时运行重新排序器，因此我们还有一个额外的好处，那就是分析文档针对用户查询的含义 — 而不是试图产生一个通用的平均含义。

重新排序器避免了双编码器的信息丢失——但它们有不同的惩罚——时间。

双编码器模型将文档或查询含义压缩为单个向量。请注意，双编码器处理我们的查询的方式与处理文档的方式相同，但在用户查询时进行。

当使用带有向量搜索的双编码器模型时，我们会将所有繁重的变压器计算预先加载到创建初始向量时 - 这意味着当用户查询我们的系统时，我们已经创建了向量，因此我们需要做的就是：

1. 运行单个transformer计算以创建查询向量。
2. 用余弦相似度（或其他轻量级指标）将查询向量与文档向量进行比较。

使用重新排序器时，我们不会预先计算任何东西。相反，我们将查询和单个其他文档输入到转换器中，运行整个转换器推理步骤，并输出单个相似度分数。

重新排序器会考虑查询和文档，以在整个转换器推理步骤中产生单个相似度分数。请注意，此处的文档 A 相当于我们的查询。

给定 4000 万条记录，如果我们在 V100 GPU 上使用像 BERT 这样的小型重新排序模型，我们将等待 50 多个小时才能返回单个查询结果 [3]。使用编码器模型和向量搜索，我们可以在不到 100 毫秒的时间内完成相同的操作。

重新排序后，我们拥有了更多相关信息。这自然会显著提高 RAG 的性能。这意味着我们可以最大化相关信息，同时最大限度地减少 LLM 中的噪音输入。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

2026-06-29

PixelRAG：伯克利团队颠覆传统 RAG，用截图代替文本检索! 28 天狂揽 3000+ Star！

2026-06-29

腾讯WeKnora开源详解（三）：检索引擎与生态集成

2026-06-29

腾讯开源WeKnora详解（二）：知识库与对话核心能力

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw