免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

关于动态本体的一些新思考及多模态知识图谱构建思路VisKnow

发布日期:2025-12-12 12:19:38 浏览次数: 1516
作者:老刘说NLP

微信搜一搜,关注“老刘说NLP”

推荐语

探索动态本体与多模态知识图谱的前沿思考,为AI知识管理提供新视角。

核心内容:
1. 动态本体的创新理解:从固定落盘到虚拟组合的轻量化演进
2. VisKnow框架解析:文本与视觉对齐的多模态知识图谱构建方法论
3. 动物领域实践案例:22K文本三元组与48万区域标注的落地应用

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

今天是2025年12月12日,星期五,北京,雪

北京下雪了,2025年冬天的第一场雪了。

看两个问题,一个是关于动态本体的一些新思考。另一个是多模态知识图谱构建思路VisKnow,重温下多模态知识图谱构建流程,包括本体定义,以及视觉信息与文本信息对齐。

多总结,多归纳,多从底层实现分析逻辑,会有收获。

一、关于动态本体的一些新思考

分享下最近的思考,对于动态本体。

我之前的认知是,动态本体=本体可以自动生成+动态更新扩充->始终落盘。最近有个新的思考,即变成了:动态本体=本体可以自动生成+动态更新扩充+临时组合做虚拟本体,且本体动,未必一定要激活底层数据也跟着动【因此是轻量化的,敏捷的】。

更像是一种组合运作,虚拟团队,完成一个目标。就是说,schema这个东西,其实不一定是要形式化的。他可以是一个temp中间状态。不一定一定要存在某个地方,也就是落盘,可以去临时起意。

对于这个问题,可以用临时用这种语义体系,对于那个问题,又可以用那种语义体系。

举个例子,查ChatBI的时候,针对一个复杂query,因为最终会涉及到底层多个表的查询处理,那么,不同的query用到的不一样,这个时候,将不同的表之间的组合关系动态的抽象成一个组合。

但是,这个想法很好,虚拟本体就是一个 逻辑本体,场景化的,但是 难在 【自动】二字,构建本体就是构建业务,搞语义就是搞业务。

二、多模态知识图谱构建思路VisKnow

之前的视觉数据要么只给类别标签,要么知识不成体系,想让模型真正理解物体(比如知道动物的部件、属性、习性)不够用。所有,可以想想,使用知识图谱能干啥,做多模态知识图谱如何实现?

如果要实现,放到多模态场景,则核心是是“结构化知识+多模态对齐”,既要文本层面的“属性-关系”逻辑(解决“为什么”),也要视觉层面的“实体-区域”标注(解决“是什么”),

但构建不太好做,可以用迭代扩展的思路。例如,工作《VisKnow: Constructing Visual Knowledge Base for Object Understanding》(https://arxiv.org/pdf/2512.08221),搞了个VisKnow框架,用于构建整合文本与视觉信息的多模态视觉知识图谱,最终形成涵盖406个动物类别的AnimalKB,包含22K文本知识三元组、42万张图像及48万份区域标注。可以看到,这个是领域图谱,选了一个动物场景。

从整体方案上看,VisKnow框架通过四个步骤构建多模态知识图谱,核心是“专家定规、众包打底、模型扩量、校验对齐”

1、知识Schema设计(专家主导)

schema的事儿,其实就是知识图谱的“骨架”,明确知识组织规则,为后续数据标注和提取提供统一标准。分开看。

输入:领域需求(如动物领域的深度理解需求)、初步分类体系(如动物超类划分)

输出:知识分类体系:划分视觉关系(如Have、Color)和非视觉关系(如BelongTo、Eat),共60类关系;

其中,

实体层级以目标类别(如动物)为根节点,定义超类通用部件(如哺乳动物的“头、躯干”)和专属部件扩展,层级如下:

2、种子内容标注(众包执行

拿到schema后,获取小规模、高质量的种子数据,作为模型扩量的训练样本和质量参照,同时优化Schema设计。

输入:Schema、标注指南、原始数据(动物百科文本、精选图像)。

众包通过从百科文本中提取三元组,系统提供语义分析辅助和一致性约束,然后众包按部件层级,对种子图像标注部件位置,最后,抽样校验(比例≥20%),剔除错误标注,迭代优化标注指南。

输出:文本种子数据,约2000条高质量知识三元组(覆盖406种动物核心知识);视觉种子数据:约1000张图像的部件标注(含boundingbox),以及优化后的Schema,根据众包反馈调整关系类型和标注规则。

3、知识规模扩展(模型主导)

这一步,主要利用大模型和视觉检测,批量提取知识、扩充数据规模,进行知识图谱的规模化增长。

输入:种子数据、原始文本(拆分后的百科段落)、批量动物图像、预定义关系集。

实现上,步骤如下:

首先,文本扩展,LLM基于少样本提示,从文本段落中批量提取三元组并分类(视觉/非视觉),专家迭代调整提示词和关系集2-3轮;

接着,视觉扩展,先用开放词汇检测模型(GLIP、GroundingDINO)0-shot定位部件,再用种子数据微调模型,通过GPT-4omini做VQA校验,最后用SAM生成分割掩码;

最后,实体补充,提取文本中的新实体(如动物专属部件),补充到视觉实体目标集。

输出:规模化文本知识:22,449条知识三元组(视觉12,453条、非视觉9,996条);规模化视觉知识:421,959张图像及48万+部件区域标注(含分割掩码);初步对齐的多模态数据:文本三元组与图像标注的实体关联

4、多模态对齐与迭代验证(专家+模型协同)

这一步的目的将文本与视觉知识对齐,补全缺失知识,修正错误,形成最终图谱。

输入:规模化文本知识、视觉知识、实体层级框架、BERT语义相似度模型。

实现步骤如下:

首先,进行多模态对齐,通过类别名称匹配文本节点与视觉区域,继承超类trivial部件三元组(如<老虎,Have,脚趾>),用BERT合并同义实体;

然后,进行质量验证专家抽样校验(比例≥5%),核查文本与视觉一致性、三元组准确性、部件标注精度;

迭代几次。最终输出:最终多模态知识图谱:文本三元组与图像/区域标注深度对齐,含406种动物、22K三元组、42万张图像;

形成的图谱如下:

至此,图谱构建完成,最后看应用方式,怎么用起来?

一种是利用图谱的多模态知识(文本三元组+视觉标注),为现有模型补充领域专属信息。

例如,将动物的属性、部件等知识(如“老虎有条纹”“蜜蜂有触角”)转化为自然语言描述,输入CLIP等模型,让模型从“仅匹配类别名”升级为“多概念整合匹配”,提升对未见过动物的识别精度。

又如,细粒度VQA(视觉问答)任务上,给GPT-4o、InternVL等多模态模型提供图谱中的知识(含干扰项,模拟真实检索场景),帮助模型回答专业问题(如“这种动物的毛发颜色是什么?”“它以什么为食?”)。

参考文献

1、https://arxiv.org/pdf/2512.08221

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询