微信扫码
添加专属顾问
我要投稿
从零开始构建知识图谱:揭秘文本数据转化为结构化知识的完整流程,无需调用GPT也能实现。核心内容: 1. 知识图谱的基础概念与核心价值 2. 六步实现文本到图谱的完整转换流程 3. 基于Mistral 7B的本地化低成本解决方案
知识图谱链接[1]
知识图谱(也称为语义网络)表示现实世界实体的网络——即对象、事件、情境或概念,并展示它们之间的关系。这些信息通常存储在图形数据库中,并以图形结构的形式可视化,因此被称为“知识图谱”。
来源:IBM - 知识图谱:https://www.ibm.com/topics/knowledge-graph
1.清理文本语料库(作品内容)。2.从作品中提取概念和实体。3.提取实体之间的关系。4.转换为图谱结构。5.填充节点(概念)和边(关系)。6.可视化与查询。
第六步是完全可选的,但它具有一定的艺术性。网络图是非常美丽的对象(看看上面的横幅图片,是不是很漂亮?)。幸运的是,有很多 Python 库可以用来生成图形可视化。
一旦构建了知识图谱(KG),我们可以用它做很多事情。我们可以运行图算法,计算任何节点的中心性,以了解一个概念(节点)在这部作品中的重要性。我们还可以计算社区,将相关概念聚集在一起,以便更好地分析文本。我们可以理解那些看似无关的概念之间的联系。
最重要的是,我们可以实现 图检索增强生成(GRAG),通过图谱作为检索器,以更深刻的方式与文本进行交互。这是 检索增强生成(RAG)的新版本,在这种方式下,我们使用向量数据库作为检索器与文档进行对话。
在这个项目中,我从一个 PDF 文档中创建了一个简单的知识图谱。这个过程与上述步骤中描述的非常相似,但做了一些简化。
首先,我将整个文本拆分成多个文本块。然后,我使用大语言模型(LLM)从每个文本块中提取出概念。请注意,我并没有使用命名实体识别(NER)模型提取实体。概念和实体是不同的。例如,“班加罗尔”是一个实体,而“班加罗尔的宜人天气”是一个概念。根据我的经验,概念比实体能构建出更有意义的知识图谱。
我假设在彼此相邻的文本块中提到的概念是相关的。因此,知识图谱中的每一条边都是一个文本块,其中提到了两个连接的概念。
一旦计算出节点(概念)和边(文本块),就可以使用上述提到的库轻松创建图谱。所有使用的组件都在本地设置,因此这个项目可以非常容易地在个人计算机上运行。我在这里采取了无 GPT 方法,以保持经济性。我使用了出色的 Mistral 7B openorca instruct,它完美地解决了这个用例。这个模型可以通过 Ollama 本地设置,因此生成知识图谱基本是免费的(不需要调用 GPT)。
要生成图谱,你需要调整的笔记本
extract_graph.ipynb[2]
该笔记本实现了下面流程图中描述的方法。
1.拆分语料库
将文本语料库拆分为多个文本块,并为每个文本块分配一个唯一的 chunk_id。2.提取概念及其语义关系
对每个文本块,使用大语言模型(LLM)提取其中的概念及其语义关系。为每种关系分配权重 W1。同一对概念之间可能有多个关系,每一个关系都对应图中的一条边。3.上下文相关关系
假设在同一文本块中出现的概念是相关的,基于它们的上下文接近性形成的关系也应当计入。为这种关系分配权重 W2。注意,同一对概念可能出现在多个文本块中。4.合并和加权
对相似的概念对进行分组,求和它们的权重,并将它们的关系连接起来。现在,任何一对不同的概念之间只有一条边,这条边具有特定的权重,并且其名称是这些关系的合并。5.计算节点的度数和社区
此外,还计算每个节点的度数和节点的社区,用于在图中分别为节点设置大小和颜色。
•Docker
1.克隆仓库:
git clone https://github.com/rahulnyk/knowledge_graph.gitcd knowledge_graph
2.构建项目:
docker build -t knowledge-graph .3.运行项目:
docker run -p 8888:8888 knowledge-graph我使用 Mistral 7B Openorca[3] 来从文本块中提取概念。它能很好地遵循系统提示指令。
Ollama 使得在本地托管任何模型变得非常简单。Mistral 7B Openorca版本已经可以通过 Ollama 直接使用。
要设置这个项目,你需要在本地机器上安装 Ollama。
步骤 1:安装 Ollama 访问 https://ollama.ai安装 Ollama。
步骤 2:运行 Ollama 在终端中运行以下命令ollama run zephyr 这会将 Zephyr 模型拉取到本地机器并启动 Ollama 服务器。
用于图谱架构的 DataFrame(后续阶段可以使用图数据库)。
这是一个 Python 库,使得处理图结构变得非常简单。
Pyvis 是一个用于可视化的 Python 库[5]。Pyvis 使用 Python 生成 JavaScript 图形可视化,最终图形可以托管在网页上。例如,GitHub 仓库链接中的图形[6]就是由 Pyvis 生成的图。
好了,今天的内容就分享到这里了,下期见!
https://github.com/rahulnyk/knowledge_graph?tab=readme-ov-file[1] 知识图谱链接:https://rahulnyk.github.io/knowledge_graph/[2]extract_graph.ipynb:https://github.com/rahulnyk/knowledge_graph/blob/main/extract_graph.ipynb[3]Mistral 7B Openorca:https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca[4]NetworkX:https://networkx.org/en/[5]Python 库:https://github.com/WestHealth/pyvis/tree/master[6]GitHub 仓库链接中的图形: https://rahulnyk.github.io/knowledge_graph/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-24
零噪声知识图谱提取革命:构建自适应本体驱动GraphRAG系统
2025-12-23
补充聊一下AI驱动的知识图谱生成器
2025-12-23
GraphRAG WorkBench:Microsoft GraphRAG 生成的交互式 3D 可视化知识图谱
2025-12-23
什么是本体(Ontology)?
2025-12-15
知识图谱本体如何从关系数据库中自动构建?再回顾本体定义及构建路径
2025-12-12
关于动态本体的一些新思考及多模态知识图谱构建思路VisKnow
2025-12-10
为AI奠定知识根基:为什么每个项目都需要知识图谱
2025-12-08
本体论:从数据中发现意义
2025-10-30
2025-10-19
2025-12-01
2025-10-21
2025-10-13
2025-11-24
2025-11-13
2025-09-29
2025-11-14
2025-11-20