微信扫码
添加专属顾问
我要投稿
企业AI落地不顺?可能是你的知识库没做好!本文揭秘如何将数据转化为真正可用的企业知识。 核心内容: 1. 企业AI应用失败的根源:缺乏有效的知识库 2. 数据、信息与知识的本质区别与转化路径 3. TorchV实现SECI模型打造智能知识库的实践方案
导读:
为什么企业AI落地往往不顺? 重新认识一下知识,不是数据,也不是文档; AI企业知识库不等于RAG; 如何将文档、数据变成知识,TorchV对SECI模型的实现介绍。
今年的AI应用里,让我最惊艳的应该是Gemini的Deep Research(pro版本)和Manus了,似乎AI真的走到了自己思考和执行事项的时代,相信已经用上这些产品的朋友会有同样的感叹。
但别急,我也发现了它们的一些局限。
也许用显微镜看的时候,它们的局限会很多,比如相对来说还比较高的执行失败率,或者明明规划路径是对的,最终结果却未达预期。但对我来说,最大的差距是Deep Research在规划时不能理解企业特有的业务流程,造成很多它们给的结果明明很好,但和我的业务无关,特别是企业自身的知识无法用几句话就讲清楚的时候,再聪明的AI也无法理解企业知识。
所以你猜到了,我想说的就是在真正的企业AI应用中,没有知识库是不行的。就像你请了一个国际高级咨询师,如果人家完全没有了解公司业务和知识的情况下,给你开了三天闭门会,也许你会觉得如沐春风,然并卵。
已经讲到了知识库,那么我们首先来看看什么是知识?我们首先看看维基百科和百度百科的解释。
知识是对某个主题“认知”与“识别”的行为藉以确信的认识,并且这些认识拥有潜在的能力为特定目的而使用 —— 维基百科
知识指人类在实践中认识世界的成果 —— 百度百科
百度百科比较简练,维基百科倒是讲到了“主题”,以及知识的“使用潜力”,所以,面向主题和使用潜力应该算是知识的重要特性。另外在现实生活中,我们还常常分不清什么是数据,什么是信息,以及什么是知识。如果要区别什么是知识,有一个1980年之前提出来的著名的认知架构叫DIKW金字塔,其认为数据是最基础的,其上是信息,再是知识,最后是智慧。但我自己更喜欢的是前喜茶和百果园的CIO沈欣老师的定义:知识是一种可验证、显性的经验模型(作者在文字描述上做了修改,内容基本一致)。而知识的层次可以分为数据—>信息—>经验—>知识。个人觉得把知识定义为一种可验证和显性的模型,更有助于现代计算机以及AI系统去理解和运行。对于数据、信息、经验和知识之间的关系与递进,下面这张图可以准确诠释:
上图把对数据、信息、经验和知识做了完整定义,分别是:
里面还有一个生动的例子,讲述了各自的区别,各位可自行阅读。图中有一句话让我印象最深刻,就是经验属于个人隐形认知,而知识是显性化的,可复用的体系单元。在AI的企业落地实践中,算力和大模型使用方面,在一定程度上是“众生平等”的,当然我说的是推理。但是在如何把AI用好这件事上,我们最需要的就是如何让知识发挥作用,最难的也是如何转化和积累知识。如上图表达的,当发现用户经常点击某运动鞋的详情页,却没有下单,应该巧妙地给他发一张优惠券促使成交,而且把这本来是运营人员的个人经验模型化,让AI可以直接使用,才是真正完成了知识转化。
在企业内部,这样的例子比比皆是,比如:
这样的例子应该在各行各业都存在,说白了,在彼得德鲁克的《为成果而管理》一书的第三章中也明确说到,企业的关键资源只有两类,一类是知识,另一类是资金。而且在该书的第七章还专门讲到了知识即企业,他也超前的预测,终有一天,人力最终被机器取代,知识在企业运转过程中将更为重要。后续,企业竞争的关键点就在于我们的知识有多好。
知识是什么,以及知识在企业业务中的重要性就讲到这里。下面我们来看看如何让知识在AI中发挥作用。
要让知识在AI时代发挥作用,也并非信手捏来,而是有一定的科学性与系统化能力。我们可以分为三部分来讲述:
我们日常看到的各类信息更多聚焦的应该是第二部分——知识应用,但实际上作为一个真正的企业级知识库,必须是三者兼修的,不然都只能是玩具。下面我就来分享一下这三部分的内容。
在企业中,知识原本往往散落在各处,包括OA系统、传统知识库、网盘、员工个人电脑,以及各类结构化数据库。如果不能将它们进行聚集和组织,我们很难真正成为知识驱动的、富有效率的企业,这就是知识构建需要完成的事情。
知识构建一般分为几步,包括知识导入、知识加工,以及如何将数据和文档转化为知识。下面我们一步步来看如何构建知识。
我们在很多传统的书本和论文中看到的知识构建基本上都和知识图谱有关,比如最常见的RDF(资源描述框架),但我们把如何利用知识图谱来构建知识,以及如何做知识双链等内容放到后面的文章再来探讨。今天我们先讲点简单一些的。
知识的来源有很多,相信能看这篇文章的你应该都不陌生,大致包括:
知识导入要做的事情就是为本地文件批量上传提供入口,以及,通过API对接等方式自动化导入原有系统内的数据和知识。
一般可以用三种方式实现知识导入的自动化触发:
如果说知识导入决定了入库知识的数据量和时效性,那么知识加工则很大程度上决定了入库知识的质量。
知识加工和数据ETL过程是类似的,也同样包含抽取(Extract)、转化(Transform)和加载(Load)等过程,目的是为了让知识具备更强的可表示性、可用性和关联性。在TorchV AIS和TorchV KBS的知识加工环节,我们会使用流程编排来完成以下一些知识加工过程:
知识加工与知识导入的自动化结合,将大大提升知识入库的效率和质量。
终于到了最难的问题,当然也是最有价值的问题。
我们和一些头部企业交流的过程中发现,图1中的数据、信息的使用,如果不考虑效果的情况下,对他们来说都已经实现了,我们可以狭义地认为就是使用RAG对文档和数据进行检索和生成。但是在企业实际业务中,大家还是希望能再进一步,能让AI实现更高阶的知识价值,如实现图1中经验和知识的使用。
从实际价值来说,从数据、文档中获取知识,把专家的个人经验和集体的经验转化为显性的知识,可以为企业带来很多好处,包括:
如何将数据、信息和文档转化为知识是有一些科学方法的,目前我们用的方法是基于SECI模型,下面简单介绍一下该方法,更多内容会在后续TorchV的AI知识库产品中体现。
SECI模型介绍
SECI模型是在1985年由野中裕次郎(Ikujiro Nonaka)和竹内弘高(Hirotaka Takeuchi)两位日本学者提出来的,内容包括知识产生的四个过程和各自产生的场(Ba),这里我们不介绍场的概念,有兴趣的朋友可自己研究。下面介绍一下SECI的四个阶段:
社会化(Socialization):它是一个通过共享经历建立隐性知识的过程,而获取隐性知识的关键是通过观察、模仿和实践。这是知识的隐性到隐性过程;
外在化(Externalization):它是一个将隐性知识用显性化的概念和语言清晰表达的过程,其转化手法有隐喻、类比、概念和模型等。这是一个隐性到显性的过程;
组合化(Combination):它是一个通过各种媒体产生的语言或数字符号,将各种显性概念组合化和系统化的过程,多种有效知识找到关联,产生更大的作用的过程。这是一个将显性知识和显性知识组合产生更大作用的过程;
内化(Internalization):它是一个将显性知识形象化和具体化的过程,通过“汇总组合”产生新的显性知识被组织人们吸收、消化,并升华成他们自己的隐性知识,应用到工作中并接收反馈。这是一个从显性知识到人人内化为行动的过程。
SECI模型例子
这样的表述比较难以理解,我可以举个自己想的现实中的例子来说明,可能有逻辑漏洞,但我已经尽力了,将就看吧。例子如下:
假设当今社会咱们没有天气预报这回事。某天老李和老刘在小区门口看着天边的黑云密布,老李说他昨天也是看到黑云之后出门,结果十多分钟之后就被淋成落汤鸡了。老刘说这个情况我也遇到过几次了,这时候聚过来的老陈、老王等一众人也说自己都遇到过这个情况。经过大家对黑云压城要下雨这件事的充分沟通,大家把各自的隐性知识共享出来,发现是一个共识。这就是社会化过程。
没过多久,这件事就被非常有文化的大刘编成一句像谚语一样的话:“红云变黑云,马上大雨淋”。于是这句话就变成了大家口口相传的话,妇孺皆知。这就是把这个隐性知识显性化的过程,也就是外在化过程。
开杂货铺的老吕发现这种突然下雨的时候雨伞供不应求,所以他就想到了,如果天边黑云增多,那么应该把雨伞从店里面搬到店门口,这样会增加销量。两个或多个知识的组合,产生更大的应用价值,这就是知识的组合化过程。
最后,老吕在收银机上面贴了一张卡片:“窗外黑云越来越多,就把雨伞搬到店门口”。这张小卡片也成了老吕店里的员工操作智能,不管是哪个轮班的员工看到,都会按这个卡片去做,也逐渐形成了一个习惯。这就是将这个组合知识进行了内化,变成了每个员工的习惯。
我们可以从这个例子中发现人类社会是如何构建知识的:从交流中发现共识,将共识变成可供传播和教学的常识,再将常识和其他知识关联组合发现对业务有帮助的组合知识,再将组合知识变成最佳实践等SOP。
SECI作为80年代出现的知识构建模型,当然有时代局限性,特别是在计算机、互联网和AI还未大面积普及的时候。其缺陷主要是:
SECI模型在TorchV知识库的实现
但是在AI时代,这些缺陷是可以被弥补的。下面我们来看看TorchV的AI企业知识库是怎么实现SECI过程的,当然这里只做简单分享。
当然,这里面有很多具体的技术细节,包括大模型在其中发挥的作用,资源描述框架(RDF)和标签属性图(LPG)在不同场景起到的知识组织和串联作用,以及依然需要人的动作来形成整个闭环等。比如AI专家访谈,可以将AI自动整理的知识存在多种潜在可能性的时候,对人类专家发起邀约,通过具体项目过程的复盘补充和固化这些知识。这些在后面的文章,或者TorchV新版本企业知识库产品正式发布的时候再做进一步说明吧。
由于在3.1中篇幅没有控制好,所以在知识应用章节我不想讲太多,只想分享一下应用形态。
知识库作为AI系统中的底层组件,可以通过API被任何应用所接入,如我们的很多客户会在TorchV知识库上面对接dify,所以从应用形态上来说其实被没有明显约束。但AI知识库也有一些非常契合的自带应用,适用于绝大多数企业客户的使用。TorchV对于知识库的默认AI应用可分为三类:帮我找、帮我写以及帮我做。
帮我找的形态相对比较简单,主要还是Chatbot,包括实时交互的RAG问答,以及异步的Deep Research。
帮我写主要是基于在线编辑器,包括常见的合同、标书、会议纪要、邮件等的编写,其特点是已经连接了写这些文档内容所需要的知识,很多时候只需一键生成即可。如图7所示。
帮我做则更多是操作类型的,比如请假、预约会议室等。界面是双栏模式,左侧带有界面,有一些操作在有界面的情况下更方便,下图是预约会议室的界面。
知识库很多时候就和人的身体一样。人的身体每天都会产生很多自由基,如果没有有效的清除机制,人马上就会生病。知识库也一样,每天有不断的新文档和新知识进来,极易造成知识库内部产生很多噪声,影响到知识检索的准确性和知识使用效果。
关于知识运营在后续的文章中会专门讲述,本文主要介绍一下知识运营主要的手段:
为什么AI应用在toB侧常常会感觉让人失望?听听我们的一些客户是怎么说的。
我们深度交流与合作过不少处在AI应用第一梯队的客户,他们说的,应用是建设导向,是目的,没错。但AI企业知识库是根基,是企业真正应该去花大力气夯实的地方。更多的就是如何让企业从自身的业务资料中形成知识,让知识可以被AI所用。他们觉得应用反而不应该是我们这些厂商操心的,因为业务因企业和岗位特有差异,他们自己才是最懂业务的人,自己才是最知道应用怎么做才能真正发挥价值的。他们可以使用外包驻场开发,或者使用Dify等工具进行工作流编排。而AI企业知识库才是他们真正需要我们这样的产品技术型厂商帮助的,因为这里面涉及到一整套带有理论知识、最佳实践、系统化和技术难题的综合产品,确实不是依靠自身能力或普通外包人员可以解决的。而AI企业知识库恰恰却决定了企业AI应用是否可以达到要求。
企业在AI时代的竞争力,不再仅仅是模型谁更大,还有谁的知识掌控得更好。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-15
2025-07-15
2025-05-12
2025-05-28
2025-05-25
2025-06-15
2025-05-21
2025-05-22
2025-05-26
2025-05-27