我要投稿

如果你的RAG系统不好用，请收藏一下这份RAG系统优化指南

发布日期：2025-07-02 20:58:10 浏览次数： 2056

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

昨天有个同学来咨询我，说他们做的智能客服很不好用，明明问题答案就在知识库里，但智能客服就是一直胡说。这种问题在RAG系统中太常见了，大概率是在某些地方配置的不合适。

今天我总结了几个关于RAG系统的优化的策略方法，大家可以参考一下。当然，在这提醒一下大家，这些方法不见得一定适合你的RAG系统，你最好是根据你实际的场景针对性地去做调整，并且这个优化工作也并不能一蹴而就，而是需要持续优化。

对于RAG优化，无外乎就这几点：

1）找得准：用户问啥，它得从资料库捞出最相关的那几段“真材实料”。

2）答得对：基于找到的资料，生成准确、靠谱的答案，不能瞎编。

3）啥都懂：简单问题、复杂推理、总结归纳，各种类型都能应对。

4）反应快：别让用户等太久，嗖嗖地出结果。

5）脾气好：遇到用户问题模糊、有歧义甚至跑题，也能得体应对，不崩溃。

而我做对RAG做的优化，主要分成两部分：检索器、生成器。

检索器层面优化

1）用户查询问题理解与改写

目的是将用户提问的问题做进一步分析，让大模型更能理解用户的目的，这样大模型给出来的答案才更加贴合用户想要的答案。策略有：

关键词提取/扩展： 使用传统技术（TF-IDF, BM25）或小型模型提取核心关键词，或使用同义词库扩展。
查询重新/扩展：提示LLM将用户查询改写/扩展为更清晰、更完整、包含潜在相关术语的形式（例如：“将用户查询改写为适合在知识库中进行文档检索的形式，补充可能缺失的关键上下文。”）。
让LLM根据查询生成一个假设的理想答案文档，然后用这个生成的文档去检索真实的相关文档。这能更好地捕捉查询意图。
让LLM基于原始查询生成多个不同角度的相关问题，分别检索后合并结果（需注意效率）。
上下文感知改写：在多轮对话中，利用对话历史重写当前查询。

2）嵌入模型优化

微调嵌入模型： 这是最有效的方法之一。使用你特定领域的语料（问答对、相关文档）对开源嵌入模型进行微调，使其向量空间更符合你的领域语义。对比学习损失函数（如MultipleNegativesRankingLoss）效果显著。
模型选择： 评估不同开源模型（text-embedding-ada-002, bge, e5, multilingual-e5 等）在你领域数据上的表现（使用检索评估指标）。考虑模型大小（速度 vs 效果）和多语言需求。
池化方法： 尝试不同的池化方法（Mean, CLS）对token embeddings进行聚合。

3）索引与分块优化

元数据： 为每个块附加丰富的元数据（来源文档ID、标题、章节、日期、作者、实体等）。在检索时利用元数据进行过滤或加权。
向量索引选择： 根据规模选择合适索引（FAISS, Annoy, HNSW, Pinecone, Weaviate, Milvus, Qdrant）。调优索引参数（nlist, efConstruction, efSearch, M 等）以平衡召回率和速度。

4）检索算法优化

查询转换： 如 Step-Back Prompting，先让LLM生成一个更抽象的“概念性”问题，用这个问题检索，再将原始问题、检索结果和抽象问题一起给LLM生成最终答案。
多向量检索： 将单个文档表示为多个向量（摘要向量、标题向量、关键短语向量等），检索时融合这些向量表示的结果。

生成器层面优化

1）提示工程

2）LLM模型选择与配置

模型选择： 根据任务复杂度、预算、延迟要求选择合适模型（GPT-4-turbo, Claude, Gemini, Command R+, Llama 3, Mixtral 等）。更大模型通常效果更好但更慢更贵。
模型参数： 调整 temperature (控制创造性，答案类任务通常设低如0.1-0.3)， top_p (核采样)， max_tokens (限制生成长度)。
微调LLM： 使用领域特定指令数据微调LLM，使其更擅长遵循你的RAG提示模板和利用上下文。指令微调是关键。