收藏

RAG关键技术：向量+标量混合检索

发布日期：2025-08-23 19:04:44 浏览次数： 2427

作者：AI何哥

微信搜一搜，关注“AI何哥”

前言：RAG（Retrieval Augmented Generation，检索增强生成）是一种结合了信息检索和生成式模型的技术，能够在大模型生成答案时利用外部知识库中的相关信息。它的工作流程可以分为几个关键步骤：解析与切片、向量存储、检索召回、生成答案等。

RAG 工作原理

1. 什么是向量+标量混合检索？

混合检索（Hybrid Search），特别是向量+标量混合检索，是一种结合了语义相似度检索（向量检索）和精确/结构化条件过滤（标量检索）的先进信息检索技术。它旨在融合两种检索方式的优势，以提升搜索结果的准确性、召回率和整体相关性。

向量检索 (Vector Search):

将文本、图像、音频等非结构化数据通过深度学习模型（如BERT）转换为高维向量（Embedding）。
通过计算查询向量与候选向量之间的相似度（如余弦相似度、欧氏距离），找到语义上最相近的结果。
优势：
擅长语义理解、处理模糊查询、同义词扩展、多模态检索。
劣势：
难以进行精确匹配（如特定ID、日期范围），结果可解释性差。

标量检索 (Scalar Search):

对结构化数据（如数据库中的字段）进行精确查询或范围查询。
常见操作包括：等值匹配（status = "active"）、范围查询（price < 100, created_time > "2023-01-01"）、地理位置查询（distance < 5km）。
优势：
精确、高效、可解释性强。
劣势：
无法理解语义，对同义词、近义表达不敏感。

混合检索 (Hybrid Search):

“意大利餐厅” -> 向量检索（理解“意大利菜”、“意式料理”等语义）
“附近5公里内”、“评分4.5以上”、“价格适中” -> 标量检索（精确的地理位置、评分、价格范围过滤）

将上述两种方式结合起来。例如，用户查询“附近5公里内，评分4.5以上，价格适中的意大利餐厅”。
最终结果是同时满足语义相关性和结构化条件的交集。

2. 为什么需要混合检索？

单一的检索方式难以应对复杂的现实需求：

仅用向量检索：
可能召回很多语义相关但不符合业务规则的结果（如距离太远、已关闭的商家）。
仅用标量检索：
可能遗漏语义相关但关键词不完全匹配的结果（如用户搜“pizza”但商家描述是“意大利薄饼”）。
混合检索：
兼顾“找得准”（标量过滤）和“找得全”（向量语义），提供更精准、更符合用户意图的结果。

3. 混合检索的实现策略（先查谁？）

这是混合检索的核心挑战：是先过滤标量条件，还是先进行向量检索？ 不同的策略在性能和召回率上各有优劣。

(1) 前置过滤 (Pre-filtering / 先查标量)

流程：
先根据标量条件（如时间、状态、地理位置）从全量数据中筛选出一个候选集，然后在这个较小的候选集上进行向量相似度检索。
优点：

如果标量过滤率很高（如过滤掉99%的数据），能极大减少向量检索的计算量，性能优异。
逻辑清晰，易于理解。

缺点：

如果标量过滤率低（候选集仍然很大），则向量检索的开销依然巨大。
可能因过早过滤而丢失潜在的高相关性结果（尤其是在ANN近似检索中）。

适用场景：
标量条件过滤性强（高过滤率），且候选集规模可控。

(2) 后置过滤 (Post-filtering / 先查向量)

流程：
先进行向量检索，召回一个较大的候选集（TopK*N，N为扩召回倍数），然后对这个候选集应用标量条件进行过滤，得到最终结果。
优点：

能最大程度保证向量检索的召回率，不易遗漏高相关性结果。
可以复用成熟的向量检索引擎（如Faiss, Milvus）。

缺点：

如果向量检索召回的候选集很大，而后置过滤条件又很严格，可能导致最终结果不足K个，需要反复扩大N值，影响性能和延迟。
计算资源浪费在对大量不符合标量条件的数据进行向量计算。

适用场景：
标量条件过滤性一般，且对召回率要求极高。

(3) 迭代式过滤 (Iterative-ANN)

流程：
这是一种更智能的动态策略。系统先进行一轮向量检索，得到一批结果，然后进行标量过滤。如果过滤后结果不足，则利用上一轮的搜索上下文，继续搜索下一批向量结果，再过滤，如此迭代，直到满足数量要求。
优点：

在过滤率中等或较低时，性能通常优于前两种方案，因为它避免了全量或大规模的计算。
能平衡召回率和性能。

缺点：
实现复杂度高。
适用场景：
过滤率不确定或中等偏低，追求性能与召回的平衡。

(4) 自适应混合检索

理念：
不固定采用某一种策略，而是由系统根据标量条件的过滤率、复杂度、数据分布等信息，自动选择最优的执行路径。
示例：
如OceanBase数据库所采用的策略：

过滤率低（1%-50%） -> 采用迭代式过滤。
过滤率中等（50%-90%） -> 采用In-filtering（在向量查询过程中直接检查标量条件）。
过滤率高（>90%） -> 采用前置过滤。
过滤率极高（>99%） -> 可能直接进行暴力计算（Flat Search）反而更快。

优点：
智能、高效、通用性强，能应对各种业务场景。

4. 技术挑战与发展趋势

挑战：

性能优化：
在保证高召回率的同时，将检索延迟控制在毫秒级（如美团外卖目标Tp99 < 20ms）。
高过滤比处理：
当过滤后候选集仍然很大（如百万级）时，如何高效检索。
GPU加速：
利用GPU的并行计算能力加速向量相似度计算，是提升性能的重要方向（如美团外卖的实践）。
索引优化：
结合HNSW、IVF-PQ等高效ANN算法，并与标量索引（如B+树、倒排索引）协同工作。

趋势：

多模态融合：
不仅是向量+标量，还包括向量+全文检索（如百度智能云、OceanBase提到的场景），实现语义与关键词的互补。
RAG (Retrieval-Augmented Generation)：
混合检索是RAG系统的核心组件，用于从知识库中精准检索上下文信息供大模型生成答案。
一体化数据库：
如OceanBase，将向量、标量、全文等能力集成在单一数据库引擎中，简化架构，提升效率。

总结

向量+标量混合检索是现代搜索、推荐和AI应用（尤其是RAG）的关键技术。它通过结合语义理解与精确过滤，解决了单一检索模式的局限性。选择哪种实现策略（前置、后置、迭代、自适应）取决于具体的业务场景、数据特征和性能要求。未来，随着多模态数据和大模型应用的普及，混合检索将变得更加智能和高效。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-07

顶级AI 检索服务商Exa ，如何用 Zilliz Cloud服务Agent 检索需求

2026-07-07

知识库分块不是越小越好——改了分块大小，准确率跳了18%

2026-07-07

分类、抽取、Rerank：小模型最容易落地的三个方向

2026-07-07

RAG 和 Agent 到底是什么关系？企业 AI 不只是问答

2026-07-06

加了Query改写，准确率从71%提到89%

2026-07-06

RAG 负责召回，LLM Wiki 负责沉淀：团队知识系统为什么不能只做检索

2026-07-05

AI 知识库为什么总答不准？不是模型笨，是资料没整理好

2026-07-05

AI知识库RAG演进：上一代解决「找得到」，下一代解决「记得住、连得起、信得过」

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

RAG已死？不，是Grep回归了！

2026-04-30

Mem0 深度解析：智能记忆层的架构原理

2026-04-27

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部

扫码登录

登录即表示您同意《53AI网站服务协议》

服务协议

欢迎您使用【53AI 官方网站】（以下简称“本网站”或“我们”）。本《会员服务协议》（以下简称“本协议”）是您（以下简称“会员”或“用户”）与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前，请务必审慎阅读、充分理解各条款内容，特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时，即视为您已完全理解并同意接受本协议的全部内容。

一、定义

本网站：指由【深圳市博思协创网络科技有限公司】运营的，域名为【53ai.com】的网站及相关移动端页面。

会员服务：指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容：指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、账号注册与登录

登录方式：本网站支持以下登录方式，您可根据实际情况选择：

微信公众号授权登录：您同意将您的微信OpenID信息授权给本网站，用于创建或关联会员账号。

手机验证码登录：您需提供真实有效的手机号码，并通过短信验证码完成身份验证与登录/注册。

账号安全：您的账号仅限您本人使用，禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失，由您自行承担。

实名认证：根据相关法律法规要求，我们可能要求您在特定功能下完成实名认证。如您拒绝提供，可能无法使用部分或全部服务。

未成年人保护：若您未满18周岁，请在法定监护人的陪同下阅读本协议，并在征得监护人同意后使用本服务。

三、服务内容与规范

知识库查阅权限：会员登录后，有权按照其会员等级对应的权限范围，在线浏览、检索本网站知识库中的相关文章及内容。

服务变更：我们有权根据业务发展需要，调整、变更或终止部分服务内容，并将以网站公告、公众号消息等方式提前通知。

禁止行为：您在使用服务时不得实施以下行为：

利用技术手段批量爬取、下载、转存知识库内容；

将知识库内容用于商业目的或未经授权地向第三方传播；

干扰本网站正常运行或侵犯其他用户合法权益；

发布违法违规信息或从事违反公序良俗的活动。

四、知识产权声明

权利归属：本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有，受《中华人民共和国著作权法》等法律保护。

有限许可：本网站授予会员一项非独占、不可转让、不可转授权的普通许可，仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责：未经书面许可，任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现，我们保留追究其法律责任的权利。

五、个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息，请单独阅读《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息，我们将严格按照《个人信息保护法》的规定处理，仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、免责声明

内容准确性：知识库内容仅供参考，不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证，您应自行判断并承担使用风险。

不可抗力：因自然灾害、政策法规变化、网络故障、第三方平台接口异常（如微信接口维护、运营商短信通道故障）等不可抗力导致的服务中断或延迟，我们不承担违约责任。

第三方链接：本网站可能包含指向第三方网站的链接，该等网站的内容和服务不受我们控制，请您自行甄别风险。

七、违约责任

如您违反本协议约定，我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施，并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失，您应承担全部赔偿责任（包括但不限于罚款、赔偿金、律师费、公证费等）。

八、法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议，双方应友好协商解决；协商不成的，任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、其他

本协议构成双方就本服务达成的完整协议，取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的，不影响其他条款的效力。

我们对本协议享有最终解释权，并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效，继续使用服务即视为同意修订内容。

已查阅