我要投稿

爆改RAG检索体验：向量+关键词，双剑合璧的“融合检索”实战指南

发布日期：2025-07-03 08:55:52 浏览次数： 1954

作者：许泽宇的技术分享

微信搜一搜，关注“许泽宇的技术分享”

❝
你以为RAG（Retrieval-Augmented Generation）检索只能靠向量？那你可就out了！今天，咱们就来聊聊如何用“向量+关键词”双剑合璧，打造检索界的“六边形战士”——融合检索（Fusion Retrieval）。

一、检索界的“武林大会”：向量 vs. 关键词

在AI知识检索的江湖里，向量检索和关键词检索（BM25）各有绝活：

向量检索：擅长“意会”，能理解“你说的不是你说的，但我懂你说的”。
关键词检索：擅长“言传”，只认死理，谁说得准、谁出现得多，谁就是老大。

但问题来了：

向量检索有时太“通透”，把“苹果”当“水果”，却忘了你其实想要“iPhone”。
关键词检索死磕字面，遇到“同义词”“语境”就抓瞎。

于是，江湖呼唤一个能“文武双全”的检索大侠——融合检索。

二、融合检索：检索界的“六边形战士”

融合检索（Fusion Retrieval）就是把向量和关键词检索的优点揉在一起，既能“意会”又能“言传”，让检索结果既懂你心思，又不丢细节。

为什么要融合？

向量检索：适合“模糊搜索”“语义理解”，但有时会漏掉关键词的“硬核”匹配。
BM25关键词检索：适合“精确打击”，但对“语义漂移”无能为力。
融合检索：两者结合，既能抓住“关键词”，又能理解“上下文”，检索效果直接起飞！

三、融合检索的“炼丹炉”：整体流程一览

别怕，流程其实很简单，咱们用伪代码和思路带你飞：

文档处理：PDF提取文本 → 清洗 → 分块（chunking）
向量化：每个chunk生成embedding，存入向量库
关键词索引：用BM25为每个chunk建关键词索引
检索时：

用向量检索找“语义相近”的chunk
用BM25找“关键词命中”的chunk
两种分数归一化，按权重融合
综合排序，取Top-K

生成答案：把Top-K chunk拼成context，丢给大模型生成最终答案

是不是很丝滑？下面我们逐步拆解。

四、文档处理：从PDF到“知识碎片”

1. PDF文本提取

用PyMuPDF等工具，把PDF里的内容一页页扒出来，拼成大文本。

text = extract_text_from_pdf(pdf_path)

2. 文本清洗

去掉多余空格、换行、奇怪符号，保证后续处理不“踩雷”。

cleaned_text = clean_text(text)

3. 分块（Chunking）

把大文本切成小块（比如每1000字符一块，重叠200字符），这样既能覆盖上下文，又不丢细节。

chunks = chunk_text(cleaned_text, chunk_size=1000, chunk_overlap=200)

五、知识入库：向量库 & BM25索引

1. 向量化

用OpenAI/BGE等embedding模型，把每个chunk变成“高维向量”，存进自定义的向量库。

embeddings = create_embeddings([chunk["text"] for chunk in chunks])
vector_store.add_items(chunks, embeddings)

2. BM25关键词索引

用BM25算法，把每个chunk的词分词、建索引，方便后续“关键词检索”。

bm25_index = create_bm25_index(chunks)

六、检索时刻：双剑合璧的“融合检索”

1. 向量检索

用用户query生成embedding，和所有chunk的embedding算余弦相似度，取Top-K。

vector_results = vector_store.similarity_search_with_scores(query_embedding, k=K)

2. BM25检索

把query分词，和BM25索引比对，算分数，取Top-K。

bm25_results = bm25_search(bm25_index, chunks, query, k=K)

3. 分数归一化 & 融合

两种分数都归一化到0~1区间
用权重alpha（比如0.5）加权融合

伪代码如下：

norm_vector_scores = normalize(vector_scores)
norm_bm25_scores = normalize(bm25_scores)
combined_scores = alpha * norm_vector_scores + (1 - alpha) * norm_bm25_scores

4. 综合排序，取Top-K

按combined_scores排序，取前K个chunk，拼成context。

七、生成答案：让大模型“锦上添花”

把Top-K chunk拼成context，和query一起丢给大模型（如Llama3、GPT-4），让它“有理有据”地回答。

response = generate_response(query, context)

八、三大检索法大比拼：谁才是“最强王者”？

我们分别用三种方式回答同一个问题，比如：

❝
“Transformer模型在自然语言处理中的主要应用有哪些？”

1. 向量检索RAG

优点：能理解“transformer”与“NLP”的语义关系
缺点：如果文档没明确提到“transformer”，可能找不到

2. BM25关键词检索RAG

优点：只要文档里有“transformer”，一定能命中
缺点：如果文档用的是“变换器模型”或“self-attention”，就GG了

3. 融合检索RAG

优点：既能抓住“transformer”关键词，又能理解“上下文”语义
缺点：实现稍复杂，计算量略大

实测结果（真实案例）：

向量检索：答得还行，但没点名“transformer”的具体应用
BM25检索：死磕关键词，没找到就说“没提到transformer”
融合检索：不仅列举了“机器翻译、文本生成、情感分析、文本分类、语言建模”，还解释了transformer在NLP的地位

结论：融合检索完胜！

九、融合检索的“江湖秘籍”：适用场景与调优建议

1. 什么时候用向量检索？

语义理解为主，关键词不确定
用户问题“拐弯抹角”，比如“能自动写诗的AI模型有哪些？”

2. 什么时候用BM25关键词检索？

用户问题“指名道姓”，比如“文档里有没有‘Transformer’这个词？”
法律、医学等领域，关键词极其重要

3. 什么时候用融合检索？

你既想“意会”又想“言传”
文档内容复杂，既有专业术语又有通俗描述
用户问题既有关键词又有语义需求

4. 融合权重怎么调？

alpha=0.5：向量和BM25各占一半，适合大多数场景
alpha→1：更偏向语义理解
alpha→0：更偏向关键词命中

可以多做A/B测试，找到最适合你业务的权重。

十、工程实践Tips

分块策略很重要：chunk太大，检索不准；太小，语义丢失。建议1000字符左右，重叠200字符。
embedding模型选型：英文用OpenAI/BGE，中文可选BGE-m3、text2vec等。
BM25分词：中文要用jieba等分词器，英文直接split即可。
归一化要做对：分数归一化别忘加epsilon防止除零。
检索速度优化：向量库可用FAISS、Milvus等，BM25可用Whoosh、Elasticsearch等。

十一、未来展望：融合检索的进阶玩法

多模态融合：不仅文本，还能融合图片、表格等多种信息
动态权重调整：根据query类型动态调整alpha
用户反馈闭环：用用户点击/满意度反向优化检索权重
端到端训练：用大模型微调，让检索和生成更“心有灵犀”

十二、总结：融合检索，RAG的“最优解”？

融合检索不是“银弹”，但在大多数实际场景下，它能显著提升RAG系统的召回率和答案质量。它让AI既能“知其然”，又能“知其所以然”。

一句话总结：

❝
“向量检索懂你，BM25不放过你，融合检索——既懂你又不放过你！”

结尾彩蛋：一张图看懂融合检索

用户Query
   │
   ├─► 向量检索（语义理解） ──┐
   │                            │
   ├─► BM25检索（关键词匹配） ─┤→ 分数归一化 → 加权融合 → Top-K排序
   │                            │
   └────────────────────────────┘
                                │
                          拼成Context
                                │
                        丢给大模型生成答案