我要投稿

三次阿里面试，都折在RAG优化上了...

发布日期：2024-11-26 20:53:59 浏览次数： 2860

作者：丁师兄大模型

微信搜一搜，关注“丁师兄大模型”

offer捷报

恭喜训练营的同学，成功斩获字节的 offer。

RAG（Retrieval Augmented Generation）作为大模型最火热的应用之一，最初是为了解决 LLM 的各类问题的（如超长上下文）产生的，但后面大家发现在现阶段的很多企业痛点上，使用 RAG 是一个更好的解决方案。

于是，RAG 被越来越多提到，相关的论文，vectorDB，开源框架，一时间百花齐放。

但是我相信很多去实践 RAG 的人已经发现了一个情况，就是 RAG 入门很简单，基本不到半天就可以从头搭建一个基本的 RAG 系统。然而，要真正达到企业产品级应用的要求很难。

很多初学者对 RAG 中的各类组件、流程也不太了解，也不知道从哪儿下手去优化 RAG。所以这篇文章，我们就来聊聊 RAG，以及关于 RAG 的一些优化。

首先我们来看一下 RAG，简单来说，RAG 可以理解为 Retrieval 和 Generation，也就是检索与生成，在加上向量化和索引的工作，对 RAG 就可以总概方式地理解为“索引、检索和生成”

以下就是 RAG 的主要组成，依次是数据提取（分片）——向量化——创建索引——检索——排序/重排序——LLM 归纳生成。

RAG 的优化，我总结可以分为几个大的部分：

检索模块的调优
生成模型的调优
前后处理的调优

今天我们先来重点聊一下检索模块的调优，可以这样说，检索模块的调优才是整个 RAG 系统中可操作空间最大的部分，而并非大模型基座本身，也不是 prompt。

因为首先你得查得准，才是最终能吐出正确结果的大前提条件。如果这一部分效果不行，后面无论怎么 summary，效果也不会好，这一现象在专有领域的问答场景更为明显。

我个人的经验是，在垂域的问答系统，至少有 60% 以上的 badcase 来源于检索模块。

检索模块怎么优化？

那检索模块应该怎么优化呢？

很多同学可能脱口而出，优化 embedding！SimCSE，BCE，BGE，M3E。。。从榜单上挨个试下来，总有一款适合我。

在这里，我想说，拿来主义不能体现对业务深入的理解，作为一个成熟的 RAG 工程师，所采用的手段应该远不局限于此。

下面提一下业务中常用的几个优化思路：

（1）落域模块

有些也称为意图识别模块。如果你的业务数据比较小而且垂直，这个模块还可以做成一个拒识模块。采用的手段有很多，这个模块不用很复杂，可以是一个浅层的分类模型。

主要目的是对用户 query 进行快速落域分类，把明显不是属于该领域的数据先过滤掉，去除无关信息这一步，可以明显提升检索准确率。

召回就从落域的知识库中来做，就算是检索错误，也大概是和目标领域相关的，不会出现过分的偏离。

（2）多路召回源

实际业务系统肯定不局限于只用向量召回，这也是做文本搜索老生常谈的话题了。

比如可以增加字面召回，如 es 里的 bm25，浅层语义召回 x2vec，深度语义召回 DSSM 等，QQ 匹配，QA 匹配等等。

有些专有领域还可以结合知识图谱，graph embedding 召回，还有专有名词，实体词召回等等。召回源越丰富，真实答案被漏掉的可能性也相应就越小了。

（3）query改写或扩展

这一般采用解释，改写，同义词替换，规范化等操作。目的是让某些专有名词，简称，缩略语等做字面层面的扩展，让大模型更容易理解。

（4）增加重排序rerank‍

这个就是采用推荐/搜索的做法，把检索过程做成漏斗型。

例如先从大量文本中得到 100 个召回结果，然后初排得到 20 个结果，接着 rerank 重排得到 8 个结果。最后把这 5 个结果送给大模型，结合提示归纳生成最终的结果。

这一过程主要是对齐不同召回源的评分标准，通过对多个召回结果进行二次排序，提高其与用户查询语义的匹配度，从而优化排序结果。

总结

最后总结一下，在业务系统中要做好 RAG 是需要花很多功夫的，每个环节都要考验工程师对数据的深层次理解。

检索模块调优是其中一个重要的环节，上面提到的每一项优化方向，要深入做下去都可以干上很久，从 demo 到打磨成一个成熟的产品，这个周期就是积攒算法经验的过程，以上都是一些工作中的小经验分享，希望对大家有用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-05

从 RAG 到 Agentic Search，一次关于信任 AI 判断的认知升级

2026-02-04

Claude Cowork 真能替换 RAG ？

2026-02-03

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-02

OpenViking：面向 Agent 的上下文数据库

2026-02-02

别再迷信向量数据库了，RAG 的“大力出奇迹”该结束了

2026-01-29

告别黑盒开发！清华系团队开源 UltraRAG：用“搭积木”的方式构建复杂 RAG 流程

2026-01-28

RAG优化不抓瞎！Milvus检索可视化，帮你快速定位嵌入、切块、索引哪有问题

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG 深度解读：检索增强生成如何改变人工智能

2025-12-04

大模型RAG入门宝典｜从AI搜索到实战搭建，小白&程序员必收藏的检索增强指南

2025-12-03

RAGFlow v0.22.0 发布：数据源同步、变量聚合、全新管理界面与多项重大更新

2025-11-13

企业级 AI Agent规模化落地的避坑指南，就藏在这四大趋势里

2025-12-02

5步构建企业级RAG应用：Dify与LangChain v1.0集成实战

2025-11-13

2026 年你需要了解的 RAG 全解析

2026-01-15

Embedding模型选型思路：相似度高不再代表检索准确（文末附实战指南）

2025-12-07

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

从 RAG 到 Context：2025 年 RAG 技术年终总结

2025-12-18

大家都在问

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

2026-01-08

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

终于，NotebookLM 和 Gemini 合体了。这是什么神之更新？

2025-12-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean