我要投稿

如何将任何文本语料库转化为知识图谱

发布日期：2025-12-24 08:38:56 浏览次数： 1732

作者：三人行AI

微信搜一搜，关注“三人行AI”

什么是知识图谱？

知识图谱（也称为语义网络）表示现实世界实体的网络——即对象、事件、情境或概念，并展示它们之间的关系。这些信息通常存储在图形数据库中，并以图形结构的形式可视化，因此被称为“知识图谱”。

来源：IBM - 知识图谱:https://www.ibm.com/topics/knowledge-graph

如何从一部作品创建简单的知识图谱？

1.清理文本语料库（作品内容）。2.从作品中提取概念和实体。3.提取实体之间的关系。4.转换为图谱结构。5.填充节点（概念）和边（关系）。6.可视化与查询。

第六步是完全可选的，但它具有一定的艺术性。网络图是非常美丽的对象（看看上面的横幅图片，是不是很漂亮？）。幸运的是，有很多 Python 库可以用来生成图形可视化。

为什么选择图谱？

一旦构建了知识图谱（KG），我们可以用它做很多事情。我们可以运行图算法，计算任何节点的中心性，以了解一个概念（节点）在这部作品中的重要性。我们还可以计算社区，将相关概念聚集在一起，以便更好地分析文本。我们可以理解那些看似无关的概念之间的联系。

最重要的是，我们可以实现 图检索增强生成（GRAG），通过图谱作为检索器，以更深刻的方式与文本进行交互。这是 检索增强生成（RAG）的新版本，在这种方式下，我们使用向量数据库作为检索器与文档进行对话。

这个项目

在这个项目中，我从一个 PDF 文档中创建了一个简单的知识图谱。这个过程与上述步骤中描述的非常相似，但做了一些简化。

首先，我将整个文本拆分成多个文本块。然后，我使用大语言模型（LLM）从每个文本块中提取出概念。请注意，我并没有使用命名实体识别（NER）模型提取实体。概念和实体是不同的。例如，“班加罗尔”是一个实体，而“班加罗尔的宜人天气”是一个概念。根据我的经验，概念比实体能构建出更有意义的知识图谱。

我假设在彼此相邻的文本块中提到的概念是相关的。因此，知识图谱中的每一条边都是一个文本块，其中提到了两个连接的概念。

一旦计算出节点（概念）和边（文本块），就可以使用上述提到的库轻松创建图谱。所有使用的组件都在本地设置，因此这个项目可以非常容易地在个人计算机上运行。我在这里采取了无 GPT 方法，以保持经济性。我使用了出色的 Mistral 7B openorca instruct，它完美地解决了这个用例。这个模型可以通过 Ollama 本地设置，因此生成知识图谱基本是免费的（不需要调用 GPT）。

要生成图谱，你需要调整的笔记本

extract_graph.ipynb^[2]

该笔记本实现了下面流程图中描述的方法。

1.拆分语料库
将文本语料库拆分为多个文本块，并为每个文本块分配一个唯一的 chunk_id。2.提取概念及其语义关系
对每个文本块，使用大语言模型（LLM）提取其中的概念及其语义关系。为每种关系分配权重 W1。同一对概念之间可能有多个关系，每一个关系都对应图中的一条边。3.上下文相关关系
假设在同一文本块中出现的概念是相关的，基于它们的上下文接近性形成的关系也应当计入。为这种关系分配权重 W2。注意，同一对概念可能出现在多个文本块中。4.合并和加权
对相似的概念对进行分组，求和它们的权重，并将它们的关系连接起来。现在，任何一对不同的概念之间只有一条边，这条边具有特定的权重，并且其名称是这些关系的合并。5.计算节点的度数和社区
此外，还计算每个节点的度数和节点的社区，用于在图中分别为节点设置大小和颜色。

本地安装

前提条件

•Docker

使用 Docker（推荐方式）

1.克隆仓库：

git clone https://github.com/rahulnyk/knowledge_graph.gitcd knowledge_graph

2.构建项目：

docker build -t knowledge-graph .

3.运行项目：

docker run -p 8888:8888 knowledge-graph

技术栈

Mistral 7B

我使用 Mistral 7B Openorca^[3] 来从文本块中提取概念。它能很好地遵循系统提示指令。

Ollama

Ollama 使得在本地托管任何模型变得非常简单。Mistral 7B Openorca版本已经可以通过 Ollama 直接使用。

要设置这个项目，你需要在本地机器上安装 Ollama。

步骤 1：安装 Ollama 访问 https://ollama.ai安装 Ollama。

步骤 2：运行 Ollama 在终端中运行以下命令ollama run zephyr 这会将 Zephyr 模型拉取到本地机器并启动 Ollama 服务器。

Pandas

用于图谱架构的 DataFrame（后续阶段可以使用图数据库）。

NetworkX^[4]

这是一个 Python 库，使得处理图结构变得非常简单。

Pyvis

Pyvis 是一个用于可视化的 Python 库^[5]。Pyvis 使用 Python 生成 JavaScript 图形可视化，最终图形可以托管在网页上。例如，GitHub 仓库链接中的图形^[6]就是由 Pyvis 生成的图。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-21

别再往 AI 的上下文里“倒垃圾”了：Agent 的尽头，是 Skill Graphs

2026-02-20

大模型时代的知识工程：OpenKG年度回顾（2025-2026）

2026-02-20

Ontology-本体论

2026-02-13

上下文图谱（Context Graph），才是打开企业Agentic 模式的“开关”

2026-02-11

知识图谱与大模型的结合：Stardog的本体论和符号化知识蒸馏技术解析

2026-02-06

Markdown文件本身就是智能体的图数据库！

2026-02-06

知识图谱，别只顾着画图

2026-02-06

知识图谱与大模型融合案例：16个行业案例揭示AI应用新范式，工信部标准院重磅发布

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Manus决定出售前最后的访谈，全是干货

2025-12-31

大模型落地最后一公里：为什么企业必须重构对“本体（Ontology）”的认知？

2025-12-01

让企业级大模型落地：每个企业 AI项目都需要的知识图谱KG基础

2025-11-24

构建本体驱动的下一代智能数字生态系统

2025-12-05

本体论：从数据中发现意义

2025-12-08

基于 Ontology 构建企业 Agent 根基：从理论到实践的技术路径 V2.0

2025-12-04

知识图谱本体如何从关系数据库中自动构建？再回顾本体定义及构建路径

2025-12-15

何时选择知识图谱而非单纯RAG？大模型时代的企业智能升级

2025-12-02

从静态到动态：探索LLM和RAG在自动更新知识图谱中的协同效应

2026-01-11

Graphiti 为 AI 智能体构建实时知识图谱

2025-11-28

大家都在问

在大学里“知识图谱”，真的有人用吗？

2026-01-27

什么是本体（Ontology）？

2025-12-23

大模型落地最后一公里：为什么企业必须重构对“本体（Ontology）”的认知？

2025-12-01

文档知识图谱构建：AI代理如何简化复杂流程？

2025-07-29

如何搭建Agent的知识库底座？

2025-07-14

如何为客户数据构建语义视图？

2025-06-14

Agent Infra 图谱：哪些组件值得为 Agent 重做一遍？

2025-05-23

Graph-RAG全面综述：如何用知识图谱+大模型解决信息检索难题？

2025-05-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

如何将任何文本语料库转化为知识图谱

什么是知识图谱？

如何从一部作品创建简单的知识图谱？

为什么选择图谱？

这个项目

本地安装

前提条件

使用 Docker（推荐方式）

技术栈

Mistral 7B

Ollama

Pandas

NetworkX[4]

Pyvis

NetworkX^[4]