支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


爆改RAG检索体验:向量+关键词,双剑合璧的“融合检索”实战指南

发布日期:2025-07-03 08:55:52 浏览次数: 1544
作者:许泽宇的技术分享

微信搜一搜,关注“许泽宇的技术分享”

推荐语

爆改RAG检索体验!向量+关键词双剑合璧,打造检索界的"六边形战士",让AI既懂你心思又不丢细节。

核心内容:
1. 向量检索与关键词检索的优劣对比
2. 融合检索的核心原理与实现流程
3. 从PDF处理到知识入库的完整实战指南

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


你以为RAG(Retrieval-Augmented Generation)检索只能靠向量?那你可就out了!今天,咱们就来聊聊如何用“向量+关键词”双剑合璧,打造检索界的“六边形战士”——融合检索(Fusion Retrieval)。


一、检索界的“武林大会”:向量 vs. 关键词

在AI知识检索的江湖里,向量检索和关键词检索(BM25)各有绝活:

  • 向量检索:擅长“意会”,能理解“你说的不是你说的,但我懂你说的”。
  • 关键词检索:擅长“言传”,只认死理,谁说得准、谁出现得多,谁就是老大。

但问题来了:

  • 向量检索有时太“通透”,把“苹果”当“水果”,却忘了你其实想要“iPhone”。
  • 关键词检索死磕字面,遇到“同义词”“语境”就抓瞎。

于是,江湖呼唤一个能“文武双全”的检索大侠——融合检索


二、融合检索:检索界的“六边形战士”

融合检索(Fusion Retrieval)就是把向量和关键词检索的优点揉在一起,既能“意会”又能“言传”,让检索结果既懂你心思,又不丢细节。

为什么要融合?

  • 向量检索:适合“模糊搜索”“语义理解”,但有时会漏掉关键词的“硬核”匹配。
  • BM25关键词检索:适合“精确打击”,但对“语义漂移”无能为力。
  • 融合检索:两者结合,既能抓住“关键词”,又能理解“上下文”,检索效果直接起飞!

三、融合检索的“炼丹炉”:整体流程一览

别怕,流程其实很简单,咱们用伪代码和思路带你飞:

  1. 文档处理:PDF提取文本 → 清洗 → 分块(chunking)
  2. 向量化:每个chunk生成embedding,存入向量库
  3. 关键词索引:用BM25为每个chunk建关键词索引
  4. 检索时
  • 用向量检索找“语义相近”的chunk
  • 用BM25找“关键词命中”的chunk
  • 两种分数归一化,按权重融合
  • 综合排序,取Top-K
  • 生成答案:把Top-K chunk拼成context,丢给大模型生成最终答案
  • 是不是很丝滑?下面我们逐步拆解。


    四、文档处理:从PDF到“知识碎片”

    1. PDF文本提取

    用PyMuPDF等工具,把PDF里的内容一页页扒出来,拼成大文本。

    text = extract_text_from_pdf(pdf_path)

    2. 文本清洗

    去掉多余空格、换行、奇怪符号,保证后续处理不“踩雷”。

    cleaned_text = clean_text(text)

    3. 分块(Chunking)

    把大文本切成小块(比如每1000字符一块,重叠200字符),这样既能覆盖上下文,又不丢细节。

    chunks = chunk_text(cleaned_text, chunk_size=1000, chunk_overlap=200)

    五、知识入库:向量库 & BM25索引

    1. 向量化

    用OpenAI/BGE等embedding模型,把每个chunk变成“高维向量”,存进自定义的向量库。

    embeddings = create_embeddings([chunk["text"for chunk in chunks])
    vector_store.add_items(chunks, embeddings)

    2. BM25关键词索引

    用BM25算法,把每个chunk的词分词、建索引,方便后续“关键词检索”。

    bm25_index = create_bm25_index(chunks)

    六、检索时刻:双剑合璧的“融合检索”

    1. 向量检索

    用用户query生成embedding,和所有chunk的embedding算余弦相似度,取Top-K。

    vector_results = vector_store.similarity_search_with_scores(query_embedding, k=K)

    2. BM25检索

    把query分词,和BM25索引比对,算分数,取Top-K。

    bm25_results = bm25_search(bm25_index, chunks, query, k=K)

    3. 分数归一化 & 融合

    • 两种分数都归一化到0~1区间
    • 用权重alpha(比如0.5)加权融合

    伪代码如下:

    norm_vector_scores = normalize(vector_scores)
    norm_bm25_scores = normalize(bm25_scores)
    combined_scores = alpha * norm_vector_scores + (1 - alpha) * norm_bm25_scores

    4. 综合排序,取Top-K

    按combined_scores排序,取前K个chunk,拼成context。


    七、生成答案:让大模型“锦上添花”

    把Top-K chunk拼成context,和query一起丢给大模型(如Llama3、GPT-4),让它“有理有据”地回答。

    response = generate_response(query, context)

    八、三大检索法大比拼:谁才是“最强王者”?

    我们分别用三种方式回答同一个问题,比如:

    “Transformer模型在自然语言处理中的主要应用有哪些?”

    1. 向量检索RAG

    • 优点:能理解“transformer”与“NLP”的语义关系
    • 缺点:如果文档没明确提到“transformer”,可能找不到

    2. BM25关键词检索RAG

    • 优点:只要文档里有“transformer”,一定能命中
    • 缺点:如果文档用的是“变换器模型”或“self-attention”,就GG了

    3. 融合检索RAG

    • 优点:既能抓住“transformer”关键词,又能理解“上下文”语义
    • 缺点:实现稍复杂,计算量略大

    实测结果(真实案例):

    • 向量检索:答得还行,但没点名“transformer”的具体应用
    • BM25检索:死磕关键词,没找到就说“没提到transformer”
    • 融合检索:不仅列举了“机器翻译、文本生成、情感分析、文本分类、语言建模”,还解释了transformer在NLP的地位

    结论:融合检索完胜!


    九、融合检索的“江湖秘籍”:适用场景与调优建议

    1. 什么时候用向量检索?

    • 语义理解为主,关键词不确定
    • 用户问题“拐弯抹角”,比如“能自动写诗的AI模型有哪些?”

    2. 什么时候用BM25关键词检索?

    • 用户问题“指名道姓”,比如“文档里有没有‘Transformer’这个词?”
    • 法律、医学等领域,关键词极其重要

    3. 什么时候用融合检索?

    • 你既想“意会”又想“言传”
    • 文档内容复杂,既有专业术语又有通俗描述
    • 用户问题既有关键词又有语义需求

    4. 融合权重怎么调?

    • alpha=0.5:向量和BM25各占一半,适合大多数场景
    • alpha→1:更偏向语义理解
    • alpha→0:更偏向关键词命中

    可以多做A/B测试,找到最适合你业务的权重。


    十、工程实践Tips

    1. 分块策略很重要:chunk太大,检索不准;太小,语义丢失。建议1000字符左右,重叠200字符。
    2. embedding模型选型:英文用OpenAI/BGE,中文可选BGE-m3、text2vec等。
    3. BM25分词:中文要用jieba等分词器,英文直接split即可。
    4. 归一化要做对:分数归一化别忘加epsilon防止除零。
    5. 检索速度优化:向量库可用FAISS、Milvus等,BM25可用Whoosh、Elasticsearch等。

    十一、未来展望:融合检索的进阶玩法

    • 多模态融合:不仅文本,还能融合图片、表格等多种信息
    • 动态权重调整:根据query类型动态调整alpha
    • 用户反馈闭环:用用户点击/满意度反向优化检索权重
    • 端到端训练:用大模型微调,让检索和生成更“心有灵犀”

    十二、总结:融合检索,RAG的“最优解”?

    融合检索不是“银弹”,但在大多数实际场景下,它能显著提升RAG系统的召回率和答案质量。它让AI既能“知其然”,又能“知其所以然”。

    一句话总结:

    “向量检索懂你,BM25不放过你,融合检索——既懂你又不放过你!”


    结尾彩蛋:一张图看懂融合检索

    用户Query
       │
       ├─► 向量检索(语义理解) ──┐
       │                            │
       ├─► BM25检索(关键词匹配) ─┤→ 分数归一化 → 加权融合 → Top-K排序
       │                            │
       └────────────────────────────┘
                                    │
                              拼成Context
                                    │
                            丢给大模型生成答案

    你还在等什么?

    赶紧把你的RAG升级成“融合检索”吧!让你的AI助手,既能“知你所想”,又能“答你所问”!

    关注我,带你玩转AI检索的每一个细节!


    互动话题:你在实际项目中遇到过哪些检索“翻车”场景?


    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询