我要投稿

从零搭建企业级RAG知识库问答系统

发布日期：2025-07-02 20:36:28 浏览次数： 2295

作者：奇舞精选

微信搜一搜，关注“奇舞精选”

RAG 是什么

RAG（Retrieval-Augmented Generation，检索增强生成） 是一种融合信息检索与大模型生成能力的技术架构。其核心逻辑分三步：

检索（Retrieve）：从企业知识库（产品文档、技术手册等）中定位与用户问题相关的片段；
增强（Augment）：将检索结果作为上下文输入大模型；
生成（Generate）：模型基于上下文生成精准、可溯源的答案。

RAG 能为企业解决哪些问题？

如何搭建 RAG 知识库问答系统

实现过程

1. 数据准备

数据准备是构建 RAG 知识库的基础，影响检索与生成质量，主要包括如下步骤：

文档准备：整理产品文档、FAQ、会议记录等内部资料。
格式清洗：统一处理各种文件格式，去除噪声。
文本切分：按章节、段落等方式拆分文本，便于向量化。
去重脱敏：清理重复内容，脱敏敏感信息，确保数据安全。

2. 向量生成与存储

文本切分完成后，需调用文本嵌入模型将每个文本片段转换为高维向量表示，便于后续的语义检索和匹配。

2.1 选择嵌入模型

选择嵌入模型时，主要考虑以下因素：

语义相关性：模型能否捕捉深层语义；
语言适配：支持中文、英文或多语言场景；
向量维度：维度越高，精度可能提升，但计算成本更大；
推理速度：响应时延和吞吐能力；
召回精度：检索的准确率和覆盖率。

推荐模型：text-embedding-v3、paraphrase-multilingual-MiniLM-L12-v2、BAAI/bge-small-zh-v1.5等

2.2 向量生成

文本切分后，需要使用嵌入模型将每个文本片段转换为向量表示，以支持后续的语义检索。常见调用方式如下：

注意：本地模型推理时，默认使用 CPU 推理时速度较慢，建议配备 GPU 和批量推理机制提升速度。

2.3 将向量入库（以Milvus为例）

向量入库主要分为以下步骤：

连接数据库：初始化 Milvus 客户端；
创建集合（Collection）：定义包含向量字段的 Schema；
插入数据：将生成的密集/稀疏向量连同元数据一并写入；
创建索引：为向量字段构建索引，提升检索效率（如 IVF_FLAT）。

🔍 向量索引说明

当数据量超过 10,000 条时，建议为向量字段显式创建索引，以加快查询速度。
如未指定索引类型，Milvus 默认采用 FLAT（全量暴力比对）方式，准确但效率低。

📌 提示：索引通常会引入近似搜索机制，提升速度的同时可能带来轻微的精度损失。实际应用中，可根据数据规模和业务需求灵活选择是否建立索引。

📘 IVF_FLAT 索引原理简述

聚类划分：使用 KMeans 算法将所有向量划分为 nlist 个簇，每个簇对应一个中心向量；
粗筛阶段：查询时，先将查询向量与所有簇中心比对，选出最相关的 nprobe 个簇；
精比阶段：只在选中的簇中进行精确比对，大幅缩小搜索范围、提升性能。

3. 文档检索

文档检索在实际应用中有多种方案，需要根据不同的数据类型与业务需求选择。以下是常见的几种检索方式：

3.1 关键词检索（Keyword Search）

基于倒排索引，依赖关键词精确匹配
优势：查询结果可控，适用于数字、代码、命名实体等精确查询
局限：无法理解语义，易遗漏表达方式不同但含义相同的内容

📌 例如：
查询：“这是一只猫”
文档包含：“这是一只英短”
在关键词检索中，由于“猫”与“英短”字面不同，即使“英短”是一种猫，系统也无法识别两者之间的关系，因此这条文档可能无法被检索出来。

3.2 语义检索（Semantic Search）

基于密集向量（Dense Vector），通过语义相似度进行模糊匹配
优势：对自然语言理解能力强，适用于问答、推荐、摘要等任务
局限：术语召回弱，缺乏精确控制，可能忽略关键词命中

📌 例如：
查询：“这是一只猫”
文档包含：“这是一只英短”
在语义检索中，模型能够理解“英短”是“英短蓝猫”的简称，是“猫”的一种，因此即使没有出现“猫”这个字，也可以通过向量相似度成功召回该文档。

3.3 混合检索（Hybrid Search）

综合使用稀疏向量（如 BM25）与密集向量，融合关键词与语义相似度
优势：兼顾精确性与语义理解，提升召回率和相关性
应用广泛，适用于大多数通用检索场景，如文档问答、知识库搜索等

💡 示例：查询语句为 这是一只猫，待检索内容为 这是一只英短。
稀疏向量部分（关键词匹配）：无法命中“猫”这个关键词，匹配失败；
稠密向量部分（语义匹配）：理解“英短”是“英短蓝猫”的简称，与“猫”语义接近，匹配成功；
混合策略：结合两者结果，系统可通过语义匹配部分召回该文档，并综合打分排序，提升整体相关性。