我要投稿

揭开RAG的神秘面纱：90%的人不知道腾讯IMA底层原理

发布日期：2025-06-13 20:23:37 浏览次数： 1932

作者：宇哥AIGC智能体魔法社

微信搜一搜，关注“宇哥AIGC智能体魔法社”

周末参加了冯帅和Mary姐的线下组局，之前我也写过总结贴子，在这就不赘述了。

今天我想说说腾讯IMA的底层逻辑RAG，RAG的内容还是比较多，我将分几次内容把它介绍一下吧。

RAG 是什么

在AI飞速发展的时代，特别是今年DeepSeek大火之后。我们与智能系统的交互日益频繁。当你向各种智能助手询问 “高考作文，你应该怎么写时。” 时，有没有想过它是如何快速准确地给出答案的呢？这背后，RAG 技术发挥着关键作用。

在人工智能时代，信息的存储、检索和生成是决定智能系统能力边界的核心要素。传统的知识管理方式如同一个静态的图书馆，所有的知识都是预定义好的，难以适应快速变化的信息环境。就像你在一个老旧的图书馆里找书，目录是固定的，一旦有新书入库或者分类调整，查找就变得十分困难。

而 RAG 的出现，为这个问题提供了新的解决方案。它就像是给智能系统配备了一个智能助手，这个助手能够利用大模型强大的能力，对传统知识检索流程的每一个步骤进行优化。大模型可以帮助我们更高效地进行信息检索，就像拥有一个智能搜索引擎，能够快速从海量信息中找到最相关的内容。

但大语言模型也有其局限性。虽然它具有强大的泛化能力，但训练数据是固定的，无法主动更新知识，除非进行复杂的微调或重新训练。这就好比一个知识渊博的学者，虽然肚子里有很多知识，但如果不持续学习新的内容，也会逐渐跟不上时代的步伐。

RAG 的本质，就是为了给大模型提供最相关的知识，帮助它提升回答的质量。当你提出问题时，RAG 系统会在知识库中进行检索，找到与问题相关的文档片段，然后将这些片段和问题一起提供给大语言模型，同时结合精心设计的提示词框架，让大模型基于这些信息给出更准确、更可靠的回答。

RAG 系统是如何运作的

用户角度看流程

从用户的角度来看，RAG 系统的运作始于一个问题的输入。当你满怀期待地在搜索框中输入 “高考作文，你应该怎么写时。”，这个问题就像一把钥匙，开启了 RAG 系统的智能之旅。

系统首先会将这个问题与已有的知识库进行匹配。这个知识库可不是临时搭建的，它是经过精心准备的，就像一个庞大的知识仓库，里面存放着各种文件。这些文件事先已经被进行了切片和索引处理，静静地等待着被查询。

问题会被转换为向量形式，与向量数据库中已有的向量块进行匹配，这就好比在一个装满了各种物品的仓库里，通过物品的特征标签快速找到与之相似的物品。经过这一检索过程，系统会定位到一系列与 “黑神话悟空什么时候发售” 相关的文档片段。这些片段可能来自不同的文档，它们就像散落在各处的拼图碎片，每一片都包含着部分答案。

在生成回答时，这些相关的文档片段会被提供给大语言模型。同时，用户的问题以及一个通用的提示词框架也会一并输入给大语言模型。提示词框架就像是一个引导者，它会说：“有请基于以下资料回答上述问题”，帮助大语言模型更好地利用这些信息，从而生成一个相对靠谱的回答。如果大语言模型在训练时没有关于 “黑神话悟空” 的信息，没有 RAG 的辅助，它可能会回答 “我不知道”，或者给出一些毫无根据的错误信息。但有了 RAG 系统，它就能结合检索到的文档片段，给出更准确的答案，比如告知你《黑神话悟空》将于 8 月 20 日发售，在 steam 中分为普通版和豪华版，价格分别为 268 元和 328 元等信息。

系统架构视角类比

从系统架构的视角来看，RAG 系统可以巧妙地类比为人类的大脑。它拥有类似于人类长期记忆和知识存储的机制，当我们将需要进入知识库的文档进行整理时，就如同大脑形成长期记忆的过程。在这个过程中，知识会被一系列的嵌入操作转换为向量表示，就像大脑将信息编码成特定的记忆形式。这些向量随后会被存储到向量数据库中，这个向量数据库就如同大脑的记忆存储区域，形成了 RAG 系统的 “大脑” 。

检索器则相当于人脑中的回忆机制。当接收到用户的问题，比如 “你还记得黑神话悟空的发售信息吗”，检索器就开始工作了。它利用余弦相似度匹配等方法，在向量数据库中寻找相关的记忆片段。在这个过程中，用户查询也需要被转换成向量格式，以便于检索器进行匹配。经过这一轮回忆，检索到的信息细节会被传输到生成器中。

生成器就像是大脑的思考和表达部分，它会根据接收到的信息进行推理和响应，最终生成我们所看到的回答。这个生成的回答是否准确、合理，很大程度上取决于大语言模型的能力。如果把 RAG 系统比作一个人，大语言模型就是这个人的智慧核心，它的能力高低直接影响着回答的质量。

核心要素组件解析

RAG 系统包含四个核心要素组件，它们如同支撑大厦的四根支柱，共同影响着 RAG 系统的质量。

第一个组件是知识嵌入，其关键在于 embedding 模型的选择。这个模型负责将文本知识转换成向量表示，就像把文字信息翻译成一种机器更容易理解的 “数字语言” 。不同的 embedding 模型有着不同的转换能力和效果，选择一个合适的模型至关重要。

向量数据库也是一个重要组件。它就像是一个高效的仓库管理员，负责存储和管理向量。如果向量数据库的索引速度快，能够支撑的数据量级大，那么它就能为 RAG 系统提供强大的支持，使得系统能够快速地存储和检索知识。

检索器同样不可或缺，它的任务是在向量数据库中检索到最相似的文档，并按照优先级进行最好的排序和召回。检索器就像是一个敏锐的侦探，能够从海量的信息中找到最相关的线索。一个优秀的检索器能够准确地找到与问题相关的文档，并且将最重要的信息排在前面，为后续的回答生成提供有力的支持。

最后一个组件是由大语言模型所代表的生成器，它的作用是将检索结果拿到手后，生成答案。在现代大语言模型已经相当强大的时代，虽然生成器的能力不容小觑，但 RAG 系统的核心可能并不在于生成器这部分。相反，检索器如何对检索部分或者嵌入部分进行优化，往往成为决定一个 RAG 系统成败的关键原因。就好比一个厨师，即使拥有顶级的食材（强大的大语言模型），但如果没有合适的烹饪方法（优化的检索和嵌入），也难以做出美味的菜肴（高质量的回答）。