微信扫码
添加专属顾问
我要投稿
从知识建模的常见坑到解决方案,一文帮你跳出分类越分越乱的死循环。核心内容:1. 企业知识分类中常见的“两难”死结及其根源2. 树状分类的局限与“多维交叉分类”的结构性矛盾3. 用多维标签体系替代单一树状结构的正确解法
分类做着做着,就乱了。
不是分得不够多,恰恰相反,是越分越多、越多越乱:条目互相重复、有些东西怎么归都不对、同一个东西放在 A 类也行放在 B 类也行。最后整个分类体系变成一团,谁来都理不清。
这篇想把这个坑讲清楚。如果你在做知识图谱、知识库、RAG 的知识组织,或者任何需要"给一堆东西分类"的工作,希望它帮你少走一段弯路。
· · · ✦ · · ·
我做的是某通信运营商的知识体系。一开始的任务很朴素:把业务知识分类,建立一套分类体系。
我们定了大概 70 个分类。listed 出来之后,问题立刻就来了。
举一个最典型的。我们有一个分类叫"政企产品",又有一个分类叫"宽带产品"。看起来都没问题——直到出现一个东西:面向政企客户的宽带产品。
它该放哪?
放进"政企产品"?可它确实是宽带。放进"宽带产品"?可它确实是政企的。两个都放?那这条知识就在体系里重复了,以后一更新就要改两个地方,迟早不一致。
这不是个例。一旦你较真,就会发现这样的"两难"到处都是。你会本能地觉得是自己没想清楚、是分类还不够细——于是再去加分类、再去定规则。但越加越乱。
我卡了很久才意识到:问题根本不在"分得够不够细",问题在分类的"维度"本身就错了。
· · · ✦ · · ·
把上面那个例子拆开看:
「客户类型」和「产品形态」,是两个互相独立的维度。
一个产品,它在"客户维度"上有个位置,在"产品维度"上也有个位置,这两个位置是同时成立、互不冲突的。"面向政企的宽带"——它在客户维度是"政企",在产品维度是"宽带",本来一点都不矛盾。
矛盾是怎么来的?是因为你建了一棵树。
树状分类的本质是:每个东西只能挂在一根树枝上,只能有一个位置。可现实里这个产品有两个身份(政企的、宽带的),你却只给它一个位置——于是它必须二选一,于是就死结了。
你把两个维度,硬压进了一个单一维度的树里。这就是病根。
这个问题在知识工程里有个名字,叫多维交叉分类。它不是某个人没想清楚,它是"用树状结构去表达多维事物"时必然产生的结构性矛盾。你再聪明、再细致,只要还在用一棵树,这个结都解不开。
· · · ✦ · · ·
解法说出来其实很简单:别让一个东西只有一个位置,让它同时拥有多个维度的标签。
还是那个产品,正确的描述方式不是"它属于哪一类",而是给它打一组标签:
这样一来:
知识图谱本来就该是这样——图谱的"实体-属性"结构,天生适合多维标签。一个实体(产品),挂多个属性(客户类型、产品形态、渠道、生命周期),这才是图谱该有的样子。
"非要给它建一棵唯一归属的分类树",是在用图谱做关系型分类该做的事,是用错了工具。
· · · ✦ · · ·
也不是。这里要讲一个分寸,否则容易从一个极端走到另一个极端。
树状分类不是没用,它适合"天然单维、天然有层级"的东西。 比如组织架构(公司-部门-科室)、行政区划(省-市-区),这些本来就是一棵树,用树就对了。
多维标签适合"多维、交叉、需要灵活组合查询"的东西。 企业的产品体系、知识体系,绝大多数属于这一类。
判断方法也很简单,给你一个可以直接用的检验动作:
当你定下一套分类,挑几个最"难归类"的条目去套它。如果你发现某个条目"放这也行、放那也行",或者"哪都不太对"——这不是你没想清楚,这是一个信号:你正在用单维的树,去装多维的东西。
这个"难归类的条目",不是麻烦,是体系在向你报警。别去硬归它,要回头看是不是维度错了。
· · · ✦ · · ·
你可能觉得这只是个"分类技巧"。但在知识图谱、RAG 这类项目里,它的影响是底层的。
知识的组织方式,直接决定了上层 AI 的检索效果。如果底层是一棵打满补丁、到处重复、自相矛盾的分类树,那么:
一个看似"上层"的 AI 回答质量问题,根子可能在最底层的分类维度上。知识建模这一步看着不起眼、不性感,但它是地基。地基的维度错了,上面盖什么都会歪。
· · · ✦ · · ·
回到我自己。我现在每天还在做这套知识体系,还在和那些"难归类"的条目打交道。
但和半年前不一样的是——现在每当我遇到一个"放哪都不对"的东西,我不再急着替它找个位置了。我会先停下来问一句:
是这个东西难归类,还是我的维度错了?大多数时候,答案是后者。
这是本人「企业 AI 落地观察」系列的知识图谱标签构建方面所想,主页还有更多实战经验,欢迎大家评论互动。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-10
一键把杂乱文档变成结构化知识图谱!开源 Hyper-Extract:LLM驱动的超强知识提取神器,Hypergraph + 时空图全支持
2026-06-10
SeedER:让知识图谱检索从“相似度匹配”走向“结构化探索”
2026-06-10
有人用 AI 把《史记》57万字变成了一个可以搜索、跳转、推理的知识图谱
2026-06-04
实体、关系、属性:知识图谱三大基本要素详解
2026-06-04
规则推理、本体推理与继承推理:三种常见推理方式
2026-06-03
本体(Ontology)与知识图谱(Knowledge Graph)的区别
2026-06-03
本体论 Ontology 泛谈丨如何帮企业应对 Tokenmaxxing 困局
2026-05-28
本体论又火了,他能优化我的 Agent 效果么?
2026-04-07
2026-03-26
2026-04-19
2026-03-28
2026-04-23
2026-04-22
2026-04-23
2026-05-26
2026-06-03
2026-05-07