我要投稿

终结 “闭卷考试”：RAG 如何从根源上构建可信的AI应用

发布日期：2025-09-09 09:07:13 浏览次数： 1727

作者：技述馆

微信搜一搜，关注“技述馆”

在上一篇《与 AI 的 “幻觉” 作战》里，我们聊到一个扎心的现实：当AI像一面失真的 “镜子”，即便我们掌握了 “提问” 这把终极杠杆，撬起来的也可能是 “一本正经的胡说八道”。幻觉，这个大模型与生俱来的 “认知缺陷”，至今仍是企业将AI落地到客服、医疗、金融等关键场景的最大拦路虎 —— 没人敢用一个随时可能编造数据的 AI 来回答客户疑问，更别提辅助诊断或生成合同了。

当时我们留下了一个 “系统性疗法”：检索增强生成（RAG）。但很多朋友读完后，感觉像是医生开出了一味名叫“RAG”的特效药，却对其复杂的药理和作用机制“知其然，不知其所以然”。

所以今天，我们不聊宏大的文明视角，也不谈抽象的技能方法论，而是扮演一次 “AI 系统工程师”。我会拿着一张清晰的 “施工蓝图”，带你一步步 “搭建” 起一个完整的 RAG 系统，让你亲眼看到：AI 是如何从 “闭卷考试” 的死记硬背，变成 “开卷考试” 的有理有据，最终成为一个 “可信的助手”。

第一部分：回归第一性原理——为什么必须是RAG？

想象一下，你让一个学生参加考试：一种是“闭卷”，他只能靠脑子里的记忆答题；另一种是“开卷”，允许他随时翻书参考。传统大模型就像那个闭卷考生——所有知识都压缩在它的参数中（那些训练时“死记硬背”的海量数据）。这听起来高效，但问题多多：知识容易过时（模型训练后就没法更新了），记忆模糊时就容易出错（比如混淆事实），而且答案无法溯源（你不知道它从哪“回忆”出来的）。这正是幻觉的温床：AI一本正经地胡说八道，因为它只能靠“内功”硬扛。

RAG则彻底翻转了范式，它让AI进行“开卷考试”：在回答前，先查阅一个外部的、可信的“资料库”。这个库可以是你的公司文档、最新新闻或专业数据库——知识最新、来源可靠。核心优势在于三点：时效性（随时更新资料，避免陈旧信息）；准确性（答案基于真实数据，不是模型的“猜想”）；可溯源性（每个回答都能指向原始来源，让你验证）。

更深刻地说，RAG不是给大模型打个“补丁”，而是重塑它的角色。从“全知的记忆者”回归到“强大的推理者”——模型不再需要记住全世界，而是专注在推理和生成上。这呼应了我们公众号的世界观：AI是文明的镜子，只有让它“开卷”，它才能更真实地映照现实世界，为从业者、产品经理和创业者带来可靠的机遇。试想，在你的产品中，AI客服能实时查阅用户手册回答问题，那将是多大的变革？

第二部分：RAG系统的“建造蓝图”——技术流程全解剖

构建RAG就像盖一座图书馆，然后教AI如何在里面高效找书。我们分成两个阶段：先“建库”（数据准备），再“用库”（实时问答）。

阶段一：数据准备（构建你的“外部图书馆”）

1.文档加载

一切从这里开始。你把原始数据——PDF、Word、网页、数据库记录等——导入系统。这就像把散乱的书籍堆进图书馆的货架。工具如LangChain的Document Loaders能轻松处理各种格式，确保数据干净导入。

2.文本分块

为什么不直接扔整本书进去？因为大模型有“上下文窗口”限制——它一次只能“读”有限的文字（比如几千个token）。所以，我们把长文档拆分成小块，每块几百到一千字。这就像把一本厚书撕成一个个独立的“章节卡片”，每张卡片上还附带“索引”（如位置信息）。常见策略有固定大小分块（简单粗暴，按字数切），或语义分块（根据句子或段落自然边界切，更智能）。这样，AI就能精准“翻”到相关部分，而不会被无关内容淹没。

3.向量化

这是整个RAG系统中最关键、也最神奇的一步。我们如何让计算机理解这些“段落卡片”的含义呢？答案是：用数学来表达语义。

我们需要一个Embedding模型。它的作用，就是将任何一段文本（语义），转化为一长串数字，即一个高维空间中的数学向量（坐标）。这就像为图书馆里的每一张“段落卡片”，都在一个看不见的三维空间（实际上是几百甚至上千维）中，分配了一个独一无二的“空间坐标”。这个分配规则的精妙之处在于：意思相近的段落，它们的空间坐标也彼此靠近。 “苹果手机”和“iPhone”这两个卡片的坐标，会离得很近；而它们与“苹果果实”的坐标，则会离得很远。

4.向量存储

有了坐标，我们需要一个地方来高效地存储和查询它们。普通的数据库不擅长处理这种“空间邻近”的查询。因此，我们需要一个专门的向量数据库。

它就像我们图书馆里那位“神奇的图书管理员”。你不必告诉他卡片的编号或标题，你只需走到他面前，告诉他你想要的“概念”（即你的问题的坐标），他就能利用高效的算法（如HNSW），瞬间找出空间中离你这个坐标最近的那些“段落卡片”。

阶段二：实时问答（进行“开卷考试”）

图书馆建好了，现在有读者来提问了。

1. 用户提问与向量化：

读者（用户）提出问题，例如：“我们公司最新财报的营收是多少？”。这个问题，同样会被我们刚才用过的那个Embedding模型，转化为一个“问题坐标”。

2. 向量检索：

“图书管理员”（向量数据库）接收到这个“问题坐标”，立刻在它的“空间知识地图”里，找出与之距离最近的Top-K个（比如K=5）“段落卡片”。这些卡片，就是与问题最相关的背景资料。

3. 提示词增强：

这是画龙点睛之笔。我们不会直接把问题丢给大模型，而是精心构造一个更丰富的Prompt，其结构如下：

背景资料：[这里是检索到的第1个段落][这里是检索到的第2个段落][这里是检索到的第3个段落]...
我的问题：我们公司最新财报的营收是多少？
指令：请严格依据以上提供的背景资料来回答我的问题。如果资料中没有相关信息，请回答“根据所提供资料，无法回答该问题”。

4. 答案生成：

大模型接收到这个被上下文“增强”后的Prompt。此刻，它的任务不再是“回忆”，而是“阅读理解”。它会基于我们提供的、可信的资料，生成一个有理有据、可溯源的答案。幻觉，就这样被我们用“工程设计”有效地扼制了。

第三部分：从“能用”到“好用”——RAG的进阶挑战与优化

搭建起基础的RAG系统，只是第一步。在真实的工业实践中，我们会遇到更多挑战，需要更精细的优化。

挑战1：分块的艺术

如果一个语义完整的句子，被固定大小的分块策略粗暴地从中间切断，检索效果就会大打折扣。因此，更先进的语义分块策略应运而生，用 NLP技术分析文本结构，按“语义完整性”拆分。比如用“递归字符分块器”，先按章节拆，再按段落拆，最后按句子拆，确保每一块都围绕一个 “核心主题”。

挑战2：检索的精准度

有时，向量相似度检索出的内容可能只是“主题相关”，但并非“回答问题的最佳片段”。为此，我们需要引入重排序模型。

初步的向量检索，就像在海选中快速找出30位“看起来不错”的选手。而重排序模型，则像一位专业的评委，会对这30位选手进行更精细的打分和排序，最终选出最最优秀的3-5位“冠军选手”，送去参加最终的“回答生成”环节。

挑战3：混合检索

对于一些包含特定术语或产品型号的查询，传统的关键词检索（如BM25算法）依然有其优势。因此，将“关键词检索”与“向量检索”相结合的混合检索模式，通常能达到1+1>2的效果。

所以工业界常用混合检索：把 “向量检索” 和 “关键词检索” 的结果结合起来，按权重排序。比如向量检索的结果占70%权重，关键词检索的结果占30%权重——这样既能覆盖 “语义相关” 的内容，也不会漏掉 “精确匹配” 的关键信息。

结论

看到这里，你应该明白：RAG 不是一个 “单一技术”，而是一套 “将大模型与外部知识库结合的系统工程”。它没有发明新的算法，却通过 “分块→向量化→检索→增强→生成” 的流程，解决了传统大模型最致命的 “幻觉” 问题。

更重要的是，RAG 改变了我们与AI的关系：从“祈祷AI不犯错的使用者”，变成了 “设计AI工作流程的架构师”。我们不再依赖大模型的“记忆”，而是通过搭建可靠的 “外部知识库”、设计精准的“检索逻辑”，从根源上约束了AI的输出——这才是 “可信 AI”的真正内核。

回顾我们 “技述馆” 的四篇文章：我们从 “AI是文明的镜子”出发，学会了用 “提问” 驾驭AI，直面了AI的“幻觉”缺陷，今天又掌握了构建 “可信AI”的RAG系统。这条线索其实指向一个清晰的未来：AI不是“替代人类的工具”，而是 “放大人类能力的伙伴”——我们负责 “定义问题、搭建系统、验证结果”，AI负责“高效推理、生成答案”。