我要投稿

知识图谱本体如何从关系数据库中自动构建？再回顾本体定义及构建路径

发布日期：2025-12-15 20:47:37 浏览次数： 2552

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2025年12月1日，星期一，北京，天气晴

时间过得真快，转眼间，2025年已经最后一个月啦。

我们继续坚持下去，继续看本体这块，算是做个本体方面的整理，看两个内容。

一个是再看知识图谱中的本体定义及其自动构建。

一个是看从关系数据库中构建本体思路-结合RAG怎么做。

多总结，多归纳，多从底层实现分析逻辑，会有收获。

一、再看知识图谱中的本体定义及其自动构建

我们来做个本体的总结，看四个问题，

1、先看本体（Ontology）的定义

本体是对特定领域内知识的规范化描述，包含4大核心要素：

【概念（Classes）】领域内的核心实体类别（如“企业”“资助申请”“技术方案”“团队成员”）；

【关系（Relations）】概念间的语义关联（如“企业提交资助申请”“技术方案采用AI方法”“团队成员负责国际扩张”）；

【属性（Properties）】如“客户姓名”“订单金额”）。

【公理约束（Constraints,Axioms）】概念和关系的规则限制（如“一个资助申请仅对应一个企业”“AI方法需属于技术方案的子类别”）。

本质是通过“标准化术语+明确关联规则”，消除知识歧义，使机器能理解领域内的语义逻辑。

2、再看本体核心作用（针对RAG系统）

从对于RAG的作用上看，本体从领域知识的形式化、结构化表示，是为知识图谱（KG）构建提供“蓝图”，明确界定领域内的概念（如“企业”“资助项目”“AI方法”）、概念间的关系（如“企业使用AI方法”“项目获得资助”）及约束规则，确保KG的一致性、层次性和可解释性，进而提升RAG系统的检索准确性和推理能力。

细分看：

一个是指导KG构建，为知识图谱提供统一的schema（结构框架），确保KG中实体、关系的定义一致，避免混乱；

一个是支持复杂推理，本体的层次性和约束规则能赋能多跳推理（如“通过‘资助申请→技术方案→AI方法’的链条检索企业使用的AI技术”）；

一个是提升检索精准度，基于本体的KG可按语义逻辑检索，而非仅依赖文本相似性，减少冗余结果；

一个是增强可解释性，本体明确了KG中实体/关系的含义，使RAG的检索和生成过程可追溯（如“为何检索该技术方案？因本体定义其与资助申请直接相关”）；

3、基于非结构化文本语料库中提取本体

基于非结构化文本语料库中提取本体，是我们经常提的，其核心思路是直接从非结构化文本中诱导领域本体，不预定义结构化schema。

如下，其实现有的GraphRAG方案很多，结合语义的话，就是如下图中的几个路线了。

实现上，输入文档拆分后的句子级文本，通过LLM从文本中自动提取概念（如“AIAgent”、“国际扩张”）、关系（如“团队成员负责AIAgent国际扩张”），调整提示词以确保命名统一，对生成的本体语法（如Turtle格式）进行二次校验修复，做对齐之类。

4、从结构化（如关系数据库RDB）中提取本体

除了非结构化文本外，还有结构化文本。

而对于关系型数据库而言，关系数据库（RDB）以表格（Table）为基本单位，通过行（Tuple）存储实例数据、列（Attribute）定义数据类型，依赖主键（PrimaryKey）、外键（ForeignKey）实现表间关联，具有结构化程度高、数据一致性强、查询效率高的特点。

而从中提取本体，其实是连接结构化数据与语义化知识表示，目标是将RDB中表结构、字段关联、数据约束等“结构化信息”转化为本体中“概念-关系-属性-公理”的形式化语义模型，主要来源于静态关系数据库的schema（表结构、列定义、主键/外键关联），为语义Web、知识图谱、智能检索等场景提供知识基础。

对应的工作有RIGOR框架(https://arxiv.org/pdf/2506.01232）。实现方式大致是通过解析RDB的模式信息DDL语句（表名、列名、主键/外键关联）、数据内容（实例值、数据分布）、业务约束（非空、唯一值、关联规则），自动或半自动生成符合OWL（WebOntologyLanguage）等标准的本体，实现“结构化数据→语义化知识”的转化。

具体做法，作为第二个部分展开：

二、从关系数据库中构建本体思路-结合RAG

本体构建，除了从非结构化文本中构建，还可以从结构化数据库中获得。

因此，来看看个故事，将关系型数据库（RDB）模式转化为丰富的OWL2DL本体，检索增强的关系型数据库本体迭代生成，思路在《Retrieval-Augmented Generation of Ontologies from Relational Databases》，https://arxiv.org/pdf/2506.01232。其核心逻辑是“逐表处理→检索上下文→生成增量片段→验证优化→合并扩展”，最终从关系型数据库（RDB）模式逐步构建出完整的OWL2DL本体。

看几个核心点：

1、看构建原则

构建原则有几个；

一个是【迭代逐表，外键引导】 ，按RDB的外键约束顺序处理表（如先处理“患者表”，再处理关联的“化疗表”），避免跨表语义冲突，保证本体层级的合理性；

一个是【RAG引导，丰富上下文】，每一步生成前均从三大知识源（数据库模式+文档、外部本体库、核心本体）检索相关信息，避免LLM幻觉，确保语义对齐；

一个是【增量合并，溯源可查】，为每个表生成独立的“增量本体（deltaontology）”片段，附加溯源标注（如“该类源自化疗表的cycle_id列”），验证后再合并至核心本体，便于追溯和修改。

2、看具体实现细节

整个实现以 “单表处理” 为最小迭代单元，循环至所有表覆盖完毕。

迭代处理方面，按外键顺序选择下一个未处理的表，重复步骤2-6，直至所有表、列、外键均被覆盖，所有表处理完毕后，核心本体（O_final）即为完整的OWL2DL本体，包含RDB的全部结构语义和外部领域知识。

细分看：

步骤1：初始化准备（迭代前基础配置）

明确输出本体类型为OWL2DL（兼顾表达能力和推理效率），确定核心本体的初始状态（空本体或含少量基础类，如Thing）。细分为：

step1【解析RDB模式】 提取所有表、列、主键、外键）、数据类型（如int、varchar）；

->step2【整理文档资源】 收集表/列的自然语言描述（如DDL注释、数据字典），无文档时用GPT-4o生成并经领域专家校验（如“化疗表的cycle_number列记录化疗周期序号”）；

->step3【配置外部本体库】连接权威领域本体库（如BioPortal），筛选相关本体（如选用4个生物医学本体，含疾病分类、细胞本体等），构建检索索引；

步骤2：表遍历与检索触发（按外键顺序选表）

再细分几个步骤：

step1【按外键约束排序表处理顺序】优先处理无依赖的“核心表”（如患者表、疾病表），再处理依赖核心表的“关联表”（如化疗表、手术表），避免外键对应的类未定义；

->step2【触发检索】 对当前目标表r，启动多源检索，使用检索工具all-mpnet-base-v2嵌入+Faiss近邻搜索获取3类上下文信息，包括：

【核心本体（Ot）】 ，包括与表r/列a相关的类、属性、公理，例如检索到核心本体中已存在的“Patient”类（对应化疗表的patient_id外键）；

【数据库文档（D）】，包括表r的功能描述、列a的业务语义，例如检索到“化疗表记录肝癌患者的化疗方案、周期、用药剂量”的文档描述；

【外部本体库（E）】，包括领域相关的类、属性（如医疗本体中的“Chemotherapy”“TreatmentCycle”），例如从BioPortal的“Human Disease Ontology”中检索到“ChemotherapyCycle”类及相关属性。检索结果筛选，保留Top-k；

步骤3：Prompt构建（为Gen-LLM提供结构化输入），将检索到的上下文按固定模板组织为Prompt

分成几个步骤：

step1【上下文声明】，核心包含数据库模式、文档、核心/外部本体3部分，确保Gen-LLM生成符合要求的本体片段；

->step2【生成指令】，明确OWL片段的结构要求（强制约束，避免无效输出），如必须包含类（子类ofThing）、数据属性（含域/范围）、对象属性（含域/范围），并生成语法规则、类型约束、基数约束以及属性类型约束；

步骤4：增量本体生成（Gen-LLM输出deltaontology）

选用强模型如Llama3.1-70B、DeepSeek-67B、Mistral3.1-24B等大模型，按Prompt指令生成目标表的deltaontology片段

每个deltaontology包含4类核心元素（严格遵循OWL2DL规范），包括类信息：对应表的业务概念；数据属性：对应普通列；对象属性：对应外键列；公理：对应类层级和属性约束；标注：溯源信息+业务注释；

步骤5：验证与refinement（Judge-LLM/专家质控）

通过“自动化验证+人工兜底”确保deltaontology无缺陷。可以细分为如下几个步骤：

step1【本体模验证】，优先用Judge-LLM（如Llama-3.1-8B-Instruct）自动化验证，高风险场景（如核心医疗术语定义）引入领域专家。

维度包括【核心本体一致性，不重复定义已有类/属性，需复用或子类化；数据库模式对齐，覆盖所有关键列（非冗余列），外键对应对象属性正确；语法与逻辑有效性，符合OWL2DL规范（可被Protégé解析），无逻辑矛盾（如类同时是两个不相交类的子类）；命名与清晰度。类/属性名语义明确，无模糊标签（如“Entity1”“PropertyA”）】；

->step2【本体修正】，流程为：Judge-LLM输出问题反馈（如“属性hasCycleNumber存在多domain”），自动修正或提示人工修改，直至片段符合所有验证标准；

—>【步骤6：合并与迭代（扩展核心本体）】。主要做合并操作，将验证通过的deltaontology片段融入当前核心本体，形成新的核心本体。

这里的处理步骤包括：

step1【新增元素】，将新增类、属性、公理添加至最新本体，保留溯源标注和外部本体IRI（如BioPortal的ChemotherapyCycle类IRI）；

->step2【冲突消解】，若存在同名类/属性，通过owl:sameAs（等价）或rdfs:subClassOf（子类）关联，避免重复。

写到这里，我们其实已经明白其精髓，可以做个核心总结。

归结起来，其本质就是三控三用。

三控指的是【事前质控（检索增强）】通过多源检索为LLM提供精准上下文，减少“无中生有”的幻觉（如依赖外部本体确保术语规范性）+【事中质控（Prompt约束）】通过强制语法/语义规则（如单域/范围、基数约束），确保生成片段的结构化和合规性+【事后质控（验证+合并）】Judge-LLM/专家验证消除缺陷，合并时冲突消解确保本体一致性，避免“碎片化”；

而之外的三用指的是用“迭代逐表+外键引导”解决跨表语义冲突+用“多源检索”应对传统方法语义浅薄、缺乏外部对齐的问题+用“LLM生成+Judge-LLM验证”解决低人工与高质量的平衡问题。

整套流程打完，很顺畅，也符合逻辑。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业