支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


知识库太乱找不到资料?5个工具提升你的RAG检索!

发布日期:2025-06-12 12:05:39 浏览次数: 1568
作者:AI粉嫩特攻队

微信搜一搜,关注“AI粉嫩特攻队”

推荐语

还在为杂乱的知识库头疼?5个实用工具帮你高效管理RAG检索系统,让大模型更懂你!

核心内容:
1. 元数据、标签、知识目录三大工具的实战应用解析
2. 文件目录与知识目录的差异化设计思路
3. 知识地图如何突破传统树状结构实现智能检索

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


这次这篇文章会先简单回顾元数据、标签、知识目录这三种工具。然后,针对读者留言的问题,重点聊聊知识目录、文件目录、知识地图之间的关系,以及什么时候构建,如何构建,如何提升RAG的效果。

很干,但很实用。

工具1:元数据系统统一标注标准

元数据是关于数据的数据,主要给管理员用,用来描述文件的客观属性,或设置访问权限。

也可以开放一些专用类型给用户进行精确指定问答范围,比如文件名、适用对象等。

元数据需要统一标准,比如,文件名称的类型统一叫文件名、文件作者的类型统一叫作者、文件出版时间的类型统一叫出版时间等

工具2:标签用户想怎么标注就怎么标注

标签是特殊类型的元数据,可以理解为类型是“标签”,值可以有多个的元数据。

管理员和用户都可以使用,标注方式不受约束,想怎么标注都可以。因此,会比较繁多和杂乱。

工具3:知识目录(组织知识的归属关系)

知识目录就是知识的文件夹。

关于知识目录的创建方式,可以参考腾讯ima知识库工作台。

在上传文档时,用户直接在个人知识库根目录上传,或者在根目录创建文件夹,然后进入文件夹内上传。

日积月累,就会呈现知识目录的结构了。

工具4:文件目录组织文件的归属关系

有时候,文件收集和知识整理的人可能不是一拨人。

面对这种情况,可以设计单独的文件库,支持创建文件目录(与知识目录不同)。

知识库中的文件,从文件库有选择地添加。

为什么要这样?

1. 从“文件视角”创建的目录结构和知识视角很可能是不同的:

文件目录:通常按照部门、时间、作者、文档类型等"管理需求"划分层次结构。

知识目录:通常按照概念、主题、业务、知识等"认知需求"划分层次结构。

举个具体例子,有一份"年度销售报告"文件:

  • 在文件目录树下可能存放为:/部门/销售部/2024年/年度销售报告.docx
  • 在知识目录树下可能存放为:xx公司知识库/经营管理/销售/年度报告

虽然都是树,但组织方式的出发点和意义是不同的。

2. 知识库的文件统一从文件库来添加,可以追踪文件的知识摄取状态
比如领导问你:“上次搜集到的1000篇文件入知识库了吗?入了多少,还有哪些文件没有入?”,如果没有文件的知识摄取状态,这个问题就会让你瞬间懵逼。

关于文件目录,目前仅用于管理文件,还没有在RAG中使用,以后如果想到什么,我会再写。

工具5:知识地图从树状到网状的升级

除了树状的“知识目录”,还有一种图状的“知识地图”,也叫“标签体系”

标签体系是通过建立各个标签之间的连接关系,从而形成的网络体系。

那么,知识地图与知识目录的区别是什么?

知识目录(树状关系)

组织知识之间的"归属关系",强调上下级。

比如:

小学数学

├─ 数与代数

│    ├─ 自然数

│    ├─ 分数

│    └─ 小数

└─ 图形与几何

     ├─ 直线与角

     └─ 面积与周长

"自然数"属于"数与代数","面积与周长"属于"图形与几何"。

每个知识点有唯一"上级主题",像树的分支一样。

知识地图(网状关系)

组织知识之间的“关联关系”,不分主次,也不一定有上下级。

比如:涉及"分数"、"小数"、"面积与周长"几个知识点,它们之间的联系如下:
  • "分数"和"小数"可以互相转换
  • "面积"、"周长"都可以用小数或分数表示

css[分数] —— [小数]

   \                  /

    [面积与周长]

总的来说:

  • 知识目录(树):谁是上级,谁是下级,谁归属于谁,层次分明,形成树
  • 知识地图(网):谁和谁有关,谁和谁配合、谁和谁互动,形成网络

以上,元数据、标签、文件目录、知识目录、知识地图的概念就是这样。

再讲讲知识目录、知识地图,如何提升RAG效果。

知识目录:全部喂给大模型

由于目录是归纳性的,所以体量不会太多,可以把整个目录结构都喂给大模型分析出最合适的节点,RAG只在这些节点路径上挂载的文件中检索。

知识目录(文件夹)是用户手动创建的,随时可以创建,把文件移动到目录就行了。

用户还可以选定某个知识目录,让本次问答只在该目录下的文档范围内进行。

知识地图:适合图谱检索

知识地图就是知识的标签体系。

而标签是没有标准约束的,想怎么标注都可以,所以可能会有很多标签,且标签之间的关联关系是采用图数据结构来组织的。

因此,整个标签网络可能会很庞大,不适合像知识目录那样全部喂给大模型,而更适合采用知识图谱的方式来进行检索。

具体来说,标签体系的形成有两种方式:

1. 上传文件的用户,可以自由的在文件上标注一个或多个关键词(标签)。
然后,系统后台会为同一个文件上的标签之间构建关系(通过大模型),每个文件上的所有标签就可以形成子图,存入图知识库。
2. 专门的知识治理人员,可以在系统后台预置一个知识图谱的模式层。
然后,当文件被上传时,自动根据模式层的信息来抽取文件内容中的相关实体和关系,形成子图,存入图知识库。

一个大致的基于图谱的标签体系检索思路(简化了其他环节的检索逻辑),

比如:

  1. 从用户问题中识别出一个或多个标签词。
  2. 通过语义检索到系统存在的最匹配的一个或多个标签词。
  3. 通过图谱检索这些系统标签词的n阶关联标签(n可以自行设置,越大查询的越慢,且噪音越多)。
  4. 将匹配到的系统标签和其关联的n阶标签作为候选标签结果集。
  5. 在候选标签标注的文档范围内检索与用户问题最相关的知识内容。

相比使用知识目录来圈定检索范围,使用标签体系圈定的范围会考虑知识之间的连接关系,可能检索到更多意料之外又在情理之中的知识。

举个例子:

在一家医疗机构的知识管理系统中,针对海量医学文献与病历档案,难以人工为每份文件或知识片段精准标注所有合适的标签。

于是,系统先构建了一个医学知识图谱的模式层:这一层明确了"疾病"、"症状"、"药物"、"检查项目"等核心实体类型,以及它们之间的典型关系(如"治疗"、"并发症"、"可能表现为"等)。

在此模式约束下,利用实体抽取技术,自动从文本中识别出"高血压"、"头痛"、"阿司匹林"、"血常规"等实体,同时根据模式层关系,把这些实体有机地串联起来,形成业务相关的标签网络。

例如,某个病例描述被自动抽取并打上"高血压"、"心脏病"、"阿司匹林(用药)"、"头晕(症状)"等标签,而“高血压”和“头晕”之间可能建立起"可能表现为"的关系。不仅便于搜索和关联,也让标签体系与医疗业务真正契合。

看到这里你可能会有一个疑问,既然标签体系可以建立标签之间的关系,那还需要目录做什么?

有几点考虑如下:

1. 知识目录强调知识的归属关系,因此体量不会很大,可以全部喂给大模型来识别与用户问题最相关的目录节点,这种方式比标签体系检索的多步处理过程要准确很多
2. 知识目录就是创建文件夹,用户是会操作的
3. 标签体系既要考虑标签,又要考虑标签之间的复杂关系,提升了用户的认知复杂度。不适合全靠人工来构建,所以会借助实体抽取+知识图谱来实现。而且通常需要建立模式层。
4. 在模式层的约束下,使得抽取的知识标签更贴合业务领域的需要。因此,相比知识目录,标签体系构建的人工部分介入的会相对少很多,那么构建的质量也会不如知识目录。

总结一下:

  • 元数据让文件有了属性
  • 标签让文件有了特征
  • 文件目录梳理了文件的管理层级
  • 知识目录梳理了文件的主题层级
  • 知识地图梳理了文件的特征关联

关键是要根据实际需求来选择和组合使用。

用对了工具,RAG的检索准确率真的能有质的提升。

回复几个具体问题

问:

具体怎么实现呢?比如目录树是提前初始化构建好的吗,还是在预处理文档时,动态构建的?文档预处理时又应该怎么确定文件应该放在哪个目录树下呢?

答:

知识目录就是知识视角来组织文件(例如:文档)或数据(例如:数据表)的文件夹,主要是用户自己来构建。

比如:腾讯ima允许用户在个人知识库创建多级文件夹,归类自己上传的文件,日积月累就慢慢形成了知识目录结构。

问:

知识目录是构建元数据时同时构建的吗?如果是有层级的,那这个层级是怎么体现的,检索的时候体现的层级关系吗?那知识目录的存在形式也是跟标签一样吗

答:

腾讯ima的知识库目录是一个很好的例子,这个目录是用户自己创建的,随时可以创建,然后把相应的文档移动到对应的文件夹中。

知识目录的层级体现的是文件的归属主题,这个取决用户自己如何从知识的主题归属视角去创建多级的目录。

知识目录和标签确实不一样。

标签是平面的,一个文档可以有多个标签;而知识目录是树状的,一个文档只能在一个目录位置,有明确的层级关系。在检索时,知识目录的层级关系确实会被利用,比如可以在特定的目录分支下(大模型识别或用户手动选定)进行检索,提高相关性。

问:

这块很复杂,有很多方式,标签,元数据,关键字,知识图谱等,但是仍然无法保证一定能做到高准确率。

答:

确实是这样的,也正因为如此,我们可以像考虑无人驾驶汽车的思维方式来考虑RAG,也就是把要解决的问题分为几个档次,比如优先解决简单事实类问题的有效回复,这部分也能为用户带来一些工作上的提升(比如腾讯的ima知识库)。然后,通过知识治理工具、方法论,以及RAG本身的检索策略的不断完善,从而让RAG能解决的问题档次逐步提升,尤其是在一些专业领域,对RAG的要求很高,就更需要在治理方面做更多的探索,治理的维度多了,RAG可利用的检索手段也会增加,更近一步的,可以考虑加入Agent、MCP等技术,这部分后续也会写。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询