知识库太乱找不到资料？5个工具提升你的RAG检索！

发布日期：2025-06-12 12:05:39 浏览次数： 2436

作者：AI粉嫩特攻队

微信搜一搜，关注“AI粉嫩特攻队”

这次这篇文章会先简单回顾元数据、标签、知识目录这三种工具。然后，针对读者留言的问题，重点聊聊知识目录、文件目录、知识地图之间的关系，以及什么时候构建，如何构建，如何提升RAG的效果。

很干，但很实用。

工具1：元数据（系统统一标注标准）

元数据是关于数据的数据，主要给管理员用，用来描述文件的客观属性，或设置访问权限。

也可以开放一些专用类型给用户进行精确指定问答范围，比如文件名、适用对象等。

元数据需要统一标准，比如，文件名称的类型统一叫文件名、文件作者的类型统一叫作者、文件出版时间的类型统一叫出版时间等。

工具2：标签（用户想怎么标注就怎么标注）

标签是特殊类型的元数据，可以理解为类型是“标签”，值可以有多个的元数据。

管理员和用户都可以使用，标注方式不受约束，想怎么标注都可以。因此，会比较繁多和杂乱。

工具3：知识目录（组织知识的归属关系）

知识目录就是知识的文件夹。

关于知识目录的创建方式，可以参考腾讯ima知识库工作台。

在上传文档时，用户直接在个人知识库根目录上传，或者在根目录创建文件夹，然后进入文件夹内上传。

日积月累，就会呈现知识目录的结构了。

工具4：文件目录（组织文件的归属关系）

有时候，文件收集和知识整理的人可能不是一拨人。

面对这种情况，可以设计单独的文件库，支持创建文件目录(与知识目录不同)。

知识库中的文件，从文件库有选择地添加。

为什么要这样？

1. 从“文件视角”创建的目录结构和”知识视角”很可能是不同的：

文件目录：通常按照部门、时间、作者、文档类型等"管理需求"划分层次结构。

知识目录：通常按照概念、主题、业务、知识等"认知需求"划分层次结构。

举个具体例子，有一份"年度销售报告"文件：

在文件目录树下可能存放为：/部门/销售部/2024年/年度销售报告.docx

在知识目录树下可能存放为：xx公司知识库/经营管理/销售/年度报告

虽然都是树，但组织方式的出发点和意义是不同的。

2. 知识库的文件统一从文件库来添加，可以追踪文件的知识摄取状态

比如领导问你：“上次搜集到的1000篇文件入知识库了吗？入了多少，还有哪些文件没有入？”，如果没有文件的知识摄取状态，这个问题就会让你瞬间懵逼。

关于文件目录，目前仅用于管理文件，还没有在RAG中使用，以后如果想到什么，我会再写。

工具5：知识地图（从树状到网状的升级）

除了树状的“知识目录”，还有一种图状的“知识地图”，也叫“标签体系”。

标签体系是通过建立各个标签之间的连接关系，从而形成的网络体系。

那么，知识地图与知识目录的区别是什么？

知识目录（树状关系）

组织知识之间的"归属关系"，强调上下级。

比如：

小学数学

├─ 数与代数

│ ├─ 自然数

│ ├─ 分数

│ └─ 小数

└─ 图形与几何

├─ 直线与角

└─ 面积与周长

"自然数"属于"数与代数"，"面积与周长"属于"图形与几何"。

每个知识点有唯一"上级主题"，像树的分支一样。

知识地图（网状关系）

组织知识之间的“关联关系”，不分主次，也不一定有上下级。

比如：涉及"分数"、"小数"、"面积与周长"几个知识点，它们之间的联系如下：

"分数"和"小数"可以互相转换

"面积"、"周长"都可以用小数或分数表示

css[分数] —— [小数]

\ /

[面积与周长]

总的来说：

知识目录（树）：谁是上级，谁是下级，谁归属于谁，层次分明，形成树

知识地图（网）：谁和谁有关，谁和谁配合、谁和谁互动，形成网络

以上，元数据、标签、文件目录、知识目录、知识地图的概念就是这样。

再讲讲知识目录、知识地图，如何提升RAG效果。

知识目录：全部喂给大模型

由于目录是归纳性的，所以体量不会太多，可以把整个目录结构都喂给大模型分析出最合适的节点，RAG只在这些节点路径上挂载的文件中检索。

知识目录(文件夹)是用户手动创建的，随时可以创建，把文件移动到目录就行了。

用户还可以选定某个知识目录，让本次问答只在该目录下的文档范围内进行。

知识地图：适合图谱检索

知识地图就是知识的标签体系。

而标签是没有标准约束的，想怎么标注都可以，所以可能会有很多标签，且标签之间的关联关系是采用图数据结构来组织的。

因此，整个标签网络可能会很庞大，不适合像知识目录那样全部喂给大模型，而更适合采用知识图谱的方式来进行检索。

具体来说，标签体系的形成有两种方式：

1. 上传文件的用户，可以自由的在文件上标注一个或多个关键词(标签)。

然后，系统后台会为同一个文件上的标签之间构建关系（通过大模型），每个文件上的所有标签就可以形成子图，存入图知识库。

2. 专门的知识治理人员，可以在系统后台预置一个知识图谱的模式层。

然后，当文件被上传时，自动根据模式层的信息来抽取文件内容中的相关实体和关系，形成子图，存入图知识库。

一个大致的基于图谱的标签体系检索思路（简化了其他环节的检索逻辑），

比如：

从用户问题中识别出一个或多个标签词。
通过语义检索到系统存在的最匹配的一个或多个标签词。
通过图谱检索这些系统标签词的n阶关联标签（n可以自行设置，越大查询的越慢，且噪音越多）。
将匹配到的系统标签和其关联的n阶标签作为候选标签结果集。
在候选标签标注的文档范围内检索与用户问题最相关的知识内容。

相比使用知识目录来圈定检索范围，使用标签体系圈定的范围会考虑知识之间的连接关系，可能检索到更多意料之外又在情理之中的知识。

举个例子：

在一家医疗机构的知识管理系统中，针对海量医学文献与病历档案，难以人工为每份文件或知识片段精准标注所有合适的标签。

于是，系统先构建了一个医学知识图谱的模式层：这一层明确了"疾病"、"症状"、"药物"、"检查项目"等核心实体类型，以及它们之间的典型关系（如"治疗"、"并发症"、"可能表现为"等）。

在此模式约束下，利用实体抽取技术，自动从文本中识别出"高血压"、"头痛"、"阿司匹林"、"血常规"等实体，同时根据模式层关系，把这些实体有机地串联起来，形成业务相关的标签网络。

例如，某个病例描述被自动抽取并打上"高血压"、"心脏病"、"阿司匹林（用药）"、"头晕（症状）"等标签，而“高血压”和“头晕”之间可能建立起"可能表现为"的关系。不仅便于搜索和关联，也让标签体系与医疗业务真正契合。

看到这里你可能会有一个疑问，既然标签体系可以建立标签之间的关系，那还需要目录做什么？

有几点考虑如下：

1. 知识目录强调知识的归属关系，因此体量不会很大，可以全部喂给大模型来识别与用户问题最相关的目录节点，这种方式比标签体系检索的多步处理过程要准确很多。

2. 知识目录就是创建文件夹，用户是会操作的。

3. 标签体系既要考虑标签，又要考虑标签之间的复杂关系，提升了用户的认知复杂度。不适合全靠人工来构建，所以会借助实体抽取+知识图谱来实现。而且通常需要建立模式层。

4. 在模式层的约束下，使得抽取的知识标签更贴合业务领域的需要。因此，相比知识目录，标签体系构建的人工部分介入的会相对少很多，那么构建的质量也会不如知识目录。

总结一下：

元数据让文件有了属性

标签让文件有了特征

文件目录梳理了文件的管理层级
知识目录梳理了文件的主题层级
知识地图梳理了文件的特征关联

关键是要根据实际需求来选择和组合使用。

用对了工具，RAG的检索准确率真的能有质的提升。

回复几个具体问题

问：

“具体怎么实现呢？比如目录树是提前初始化构建好的吗，还是在预处理文档时，动态构建的？文档预处理时又应该怎么确定文件应该放在哪个目录树下呢？”

答：

知识目录就是知识视角来组织文件(例如：文档)或数据(例如：数据表)的文件夹，主要是用户自己来构建。

比如：腾讯ima允许用户在个人知识库创建多级文件夹，归类自己上传的文件，日积月累就慢慢形成了知识目录结构。

问：

“知识目录是构建元数据时同时构建的吗？如果是有层级的，那这个层级是怎么体现的，检索的时候体现的层级关系吗？那知识目录的存在形式也是跟标签一样吗”

答：

腾讯ima的知识库目录是一个很好的例子，这个目录是用户自己创建的，随时可以创建，然后把相应的文档移动到对应的文件夹中。

知识目录的层级体现的是文件的归属主题，这个取决用户自己如何从知识的主题归属视角去创建多级的目录。

知识目录和标签确实不一样。

标签是平面的，一个文档可以有多个标签；而知识目录是树状的，一个文档只能在一个目录位置，有明确的层级关系。在检索时，知识目录的层级关系确实会被利用，比如可以在特定的目录分支下(大模型识别或用户手动选定)进行检索，提高相关性。

问：

“这块很复杂，有很多方式，标签，元数据，关键字，知识图谱等，但是仍然无法保证一定能做到高准确率。”

答：

确实是这样的，也正因为如此，我们可以像考虑无人驾驶汽车的思维方式来考虑RAG，也就是把要解决的问题分为几个档次，比如优先解决简单事实类问题的有效回复，这部分也能为用户带来一些工作上的提升（比如腾讯的ima知识库）。然后，通过知识治理工具、方法论，以及RAG本身的检索策略的不断完善，从而让RAG能解决的问题档次逐步提升，尤其是在一些专业领域，对RAG的要求很高，就更需要在治理方面做更多的探索，治理的维度多了，RAG可利用的检索手段也会增加，更近一步的，可以考虑加入Agent、MCP等技术，这部分后续也会写。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业