支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


企业AI落地不顺,问题可能出在你没搞懂知识库

发布日期:2025-08-05 08:36:46 浏览次数: 1539
作者:土猛的员外

微信搜一搜,关注“土猛的员外”

推荐语

企业AI落地不顺?可能是你的知识库没做好!本文揭秘如何将数据转化为真正可用的企业知识。

核心内容:
1. 企业AI应用失败的根源:缺乏有效的知识库
2. 数据、信息与知识的本质区别与转化路径
3. TorchV实现SECI模型打造智能知识库的实践方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

导读:

  • 为什么企业AI落地往往不顺?
  • 重新认识一下知识,不是数据,也不是文档;
  • AI企业知识库不等于RAG;
  • 如何将文档、数据变成知识,TorchV对SECI模型的实现介绍。

一、AI时代知识为什么很重要

今年的AI应用里,让我最惊艳的应该是Gemini的Deep Research(pro版本)和Manus了,似乎AI真的走到了自己思考和执行事项的时代,相信已经用上这些产品的朋友会有同样的感叹。

但别急,我也发现了它们的一些局限。

也许用显微镜看的时候,它们的局限会很多,比如相对来说还比较高的执行失败率,或者明明规划路径是对的,最终结果却未达预期。但对我来说,最大的差距是Deep Research在规划时不能理解企业特有的业务流程,造成很多它们给的结果明明很好,但和我的业务无关,特别是企业自身的知识无法用几句话就讲清楚的时候,再聪明的AI也无法理解企业知识。

所以你猜到了,我想说的就是在真正的企业AI应用中,没有知识库是不行的。就像你请了一个国际高级咨询师,如果人家完全没有了解公司业务和知识的情况下,给你开了三天闭门会,也许你会觉得如沐春风,然并卵。

二、什么是知识

已经讲到了知识库,那么我们首先来看看什么是知识?我们首先看看维基百科和百度百科的解释。

知识是对某个主题“认知”与“识别”的行为藉以确信的认识,并且这些认识拥有潜在的能力为特定目的而使用 —— 维基百科

知识指人类在实践中认识世界的成果 —— 百度百科

百度百科比较简练,维基百科倒是讲到了“主题”,以及知识的“使用潜力”,所以,面向主题和使用潜力应该算是知识的重要特性。另外在现实生活中,我们还常常分不清什么是数据,什么是信息,以及什么是知识。如果要区别什么是知识,有一个1980年之前提出来的著名的认知架构叫DIKW金字塔,其认为数据是最基础的,其上是信息,再是知识,最后是智慧。但我自己更喜欢的是前喜茶和百果园的CIO沈欣老师的定义:知识是一种可验证、显性的经验模型(作者在文字描述上做了修改,内容基本一致)。而知识的层次可以分为数据—>信息—>经验—>知识。个人觉得把知识定义为一种可验证和显性的模型,更有助于现代计算机以及AI系统去理解和运行。对于数据、信息、经验和知识之间的关系与递进,下面这张图可以准确诠释:


上图把对数据、信息、经验和知识做了完整定义,分别是:

  • 数据:反应客观事实的数字、符号或记录。
  • 信息:经过整理、归类或分析的数据,赋予其意义和目的。
  • 经验:技能或认知,通常依赖个人或组织的积累。
  • 知识:可验证的业务模型,能指导决策和行动。

里面还有一个生动的例子,讲述了各自的区别,各位可自行阅读。图中有一句话让我印象最深刻,就是经验属于个人隐形认知,而知识是显性化的,可复用的体系单元。在AI的企业落地实践中,算力和大模型使用方面,在一定程度上是“众生平等”的,当然我说的是推理。但是在如何把AI用好这件事上,我们最需要的就是如何让知识发挥作用,最难的也是如何转化和积累知识。如上图表达的,当发现用户经常点击某运动鞋的详情页,却没有下单,应该巧妙地给他发一张优惠券促使成交,而且把这本来是运营人员的个人经验模型化,让AI可以直接使用,才是真正完成了知识转化。

在企业内部,这样的例子比比皆是,比如:

  • 面对各类不同条件,有经验的造价师如何去计算价格,其实也是一种知识模型;
  • 金融行业对于风险的识别判断,除了大数据之外,就是各类知识模型;
  • HR如何在初筛的时候根据用人需求挑选出合适的简历,也是一种知识模型。

这样的例子应该在各行各业都存在,说白了,在彼得德鲁克的《为成果而管理》一书的第三章中也明确说到,企业的关键资源只有两类,一类是知识,另一类是资金。而且在该书的第七章还专门讲到了知识即企业,他也超前的预测,终有一天,人力最终被机器取代,知识在企业运转过程中将更为重要。后续,企业竞争的关键点就在于我们的知识有多好

知识是什么,以及知识在企业业务中的重要性就讲到这里。下面我们来看看如何让知识在AI中发挥作用。

三、如何让知识在AI中发挥作用

要让知识在AI时代发挥作用,也并非信手捏来,而是有一定的科学性与系统化能力。我们可以分为三部分来讲述:

  1. 知识构建:如何将企业中的数据、信息和经验转化为知识;
  2. 知识应用:如何利用AI来应用知识;
  3. 知识运营:如何保持AI知识系统的可用性。

我们日常看到的各类信息更多聚焦的应该是第二部分——知识应用,但实际上作为一个真正的企业级知识库,必须是三者兼修的,不然都只能是玩具。下面我就来分享一下这三部分的内容。


3.1 知识构建

在企业中,知识原本往往散落在各处,包括OA系统、传统知识库、网盘、员工个人电脑,以及各类结构化数据库。如果不能将它们进行聚集和组织,我们很难真正成为知识驱动的、富有效率的企业,这就是知识构建需要完成的事情。

知识构建一般分为几步,包括知识导入知识加工,以及如何将数据和文档转化为知识。下面我们一步步来看如何构建知识。

我们在很多传统的书本和论文中看到的知识构建基本上都和知识图谱有关,比如最常见的RDF(资源描述框架),但我们把如何利用知识图谱来构建知识,以及如何做知识双链等内容放到后面的文章再来探讨。今天我们先讲点简单一些的。

3.1.1 知识导入

知识的来源有很多,相信能看这篇文章的你应该都不陌生,大致包括:

  • 本地文件:企业内部电脑上都会存在大量的本地文件,常见格式包括Word、Excel、PPT、PDF、TXT和图片等,当然还有一些特殊的格式,如视频和CAD等。
  • 原有系统:企业原有的各类数据和知识系统,包括传统知识库、文档管理系统、OA、数据库,以及更综合的钉钉、飞书和企业微信等办公软件。
  • 外部知识:从互联网获得相应的知识内容对于现代企业来说已经变得越来越重要,所以知识库的知识导入必须是可以导入外部知识的;
  • 其他:还有就是纸质版的各类知识,它们需要被扫描或人工录入才能被机器使用。

知识导入要做的事情就是为本地文件批量上传提供入口,以及,通过API对接等方式自动化导入原有系统内的数据和知识。


一般可以用三种方式实现知识导入的自动化触发:

  • Webhook:接受指定的触发事件时开始知识导入/抽取,如原有系统有新建文档产生;
  • 定时触发:相对机械化的定期任务设置,如每天固定时间/每小时/每分钟等;
  • 定时触发(高级):可自定义的定时任务,如使用Cron表达式等。
3.1.2 知识加工

如果说知识导入决定了入库知识的数据量和时效性,那么知识加工则很大程度上决定了入库知识的质量。

知识加工和数据ETL过程是类似的,也同样包含抽取(Extract)、转化(Transform)和加载(Load)等过程,目的是为了让知识具备更强的可表示性、可用性和关联性。在TorchV AIS和TorchV KBS的知识加工环节,我们会使用流程编排来完成以下一些知识加工过程:

  • 内容抽取:按一定的逻辑结构抽取目标文档中的内容,包括文本直接提取、表格解析提取等,TorchV的产品还支持.doc文本和表格的提取(现已开源,欢迎关注:https://github.com/torchv/torchv-unstructured);
  • 处理算子:在知识加工的流程编排中增加数据脱敏、内容赋权、ASR、摘要等处理算子,以及增加条件分支、循环、条件筛选等逻辑控制算子;
  • 知识清洗:和数据清洗不太一样的是,知识清洗更多是将内容转化为Markdown,并去除一些标记语言,如HTML的EL;
  • 知识丰富:包括知识打标、添加上下文辅助、知识双链和知识合并等。

知识加工与知识导入的自动化结合,将大大提升知识入库的效率和质量。


3.1.3 如何将文档转化为知识?

终于到了最难的问题,当然也是最有价值的问题。

我们和一些头部企业交流的过程中发现,图1中的数据、信息的使用,如果不考虑效果的情况下,对他们来说都已经实现了,我们可以狭义地认为就是使用RAG对文档和数据进行检索和生成。但是在企业实际业务中,大家还是希望能再进一步,能让AI实现更高阶的知识价值,如实现图1中经验和知识的使用。

从实际价值来说,从数据、文档中获取知识,把专家的个人经验和集体的经验转化为显性的知识,可以为企业带来很多好处,包括:

  • 知识传承:大型组织中,老员工的退休,会带走大批宝贵个人经验。如何将这些个人经验转化为显性的知识,做好知识传承,对于企业留住知识非常关键。
  • 业务智能化:类似图1中的电商场景,有效的知识应用可以让AI系统处理有经验的运营人员才能做的事物,让业务处理越来越智能。
  • 其他:企业中知识的应用不胜枚举,这里不再扩展,包括新闻事件的关联影响分析对金融行业的帮助,以及工程造价环节中成本估算和工程参数判断等诸多场景,都不是简单的文本RAG就可以解决的,而是需要将个人或集体的经验变成机器可以应用的知识,才能实现更高的AI和知识应用的价值。

如何将数据、信息和文档转化为知识是有一些科学方法的,目前我们用的方法是基于SECI模型,下面简单介绍一下该方法,更多内容会在后续TorchV的AI知识库产品中体现。


SECI模型介绍

SECI模型是在1985年由野中裕次郎(Ikujiro Nonaka)竹内弘高(Hirotaka Takeuchi)两位日本学者提出来的,内容包括知识产生的四个过程和各自产生的场(Ba),这里我们不介绍场的概念,有兴趣的朋友可自己研究。下面介绍一下SECI的四个阶段:

  • 社会化Socialization):它是一个通过共享经历建立隐性知识的过程,而获取隐性知识的关键是通过观察、模仿和实践。这是知识的隐性到隐性过程;

  • 外在化Externalization):它是一个将隐性知识用显性化的概念和语言清晰表达的过程,其转化手法有隐喻、类比、概念和模型等。这是一个隐性到显性的过程;

  • 组合化Combination):它是一个通过各种媒体产生的语言或数字符号,将各种显性概念组合化和系统化的过程,多种有效知识找到关联,产生更大的作用的过程。这是一个将显性知识和显性知识组合产生更大作用的过程;

  • 内化Internalization):它是一个将显性知识形象化和具体化的过程,通过“汇总组合”产生新的显性知识被组织人们吸收、消化,并升华成他们自己的隐性知识,应用到工作中并接收反馈。这是一个从显性知识到人人内化为行动的过程。


SECI模型例子

这样的表述比较难以理解,我可以举个自己想的现实中的例子来说明,可能有逻辑漏洞,但我已经尽力了,将就看吧。例子如下:

假设当今社会咱们没有天气预报这回事。某天老李和老刘在小区门口看着天边的黑云密布,老李说他昨天也是看到黑云之后出门,结果十多分钟之后就被淋成落汤鸡了。老刘说这个情况我也遇到过几次了,这时候聚过来的老陈、老王等一众人也说自己都遇到过这个情况。经过大家对黑云压城要下雨这件事的充分沟通,大家把各自的隐性知识共享出来,发现是一个共识。这就是社会化过程。

没过多久,这件事就被非常有文化的大刘编成一句像谚语一样的话:“红云变黑云,马上大雨淋”。于是这句话就变成了大家口口相传的话,妇孺皆知。这就是把这个隐性知识显性化的过程,也就是外在化过程。

开杂货铺的老吕发现这种突然下雨的时候雨伞供不应求,所以他就想到了,如果天边黑云增多,那么应该把雨伞从店里面搬到店门口,这样会增加销量。两个或多个知识的组合,产生更大的应用价值,这就是知识的组合化过程。

最后,老吕在收银机上面贴了一张卡片:“窗外黑云越来越多,就把雨伞搬到店门口”。这张小卡片也成了老吕店里的员工操作智能,不管是哪个轮班的员工看到,都会按这个卡片去做,也逐渐形成了一个习惯。这就是将这个组合知识进行了内化,变成了每个员工的习惯。


我们可以从这个例子中发现人类社会是如何构建知识的:从交流中发现共识,将共识变成可供传播和教学的常识,再将常识和其他知识关联组合发现对业务有帮助的组合知识,再将组合知识变成最佳实践等SOP。

SECI作为80年代出现的知识构建模型,当然有时代局限性,特别是在计算机、互联网和AI还未大面积普及的时候。其缺陷主要是:

  • 无法为企业带来一套有效的知识构建方法,更多存在于理论研究和发现层面;
  • 缺少更广泛和更新的知识,比如当代大模型中包含的知识,以及借助互联网获得的知识等;
  • 其最后内后的结果更多是作用于人,但人才流动是当今社会的常态,我们更需要把知识沉淀在企业内部的系统中。


SECI模型在TorchV知识库的实现

但是在AI时代,这些缺陷是可以被弥补的。下面我们来看看TorchV的AI企业知识库是怎么实现SECI过程的,当然这里只做简单分享。

  • 社会化:TorchV知识库可通过知识加工获取权限内的内容,包括会议纪要、群聊天内容、日报周报 ,以及企业自身的传统知识库和OA等,在这些内容中发现传播度/讨论度较高的内容,进行共识提取,形成企业内的潜在知识;
  • 外在化:TorchV知识库通过潜在知识提炼,形成内部的一个个知识主题,具体的表现形式是应用空间(知识空间),参考图5;
  • 知识组合:应用空间的主要作用就是在知识仓库的基础上引用/复制更贴合主题的知识,比如从多个部门的知识仓库中引用关于贷款审批辅助的知识,打破了部门墙,为某一应用主题形成了组合型的知识;
  • 内化:知识空间与在其之上构建的智能体进行结合,形成了一个可以被智能触发而处理或分析业务的AI应用。这时候知识就不仅仅只存在于人脑里了。



当然,这里面有很多具体的技术细节,包括大模型在其中发挥的作用,资源描述框架(RDF)和标签属性图(LPG)在不同场景起到的知识组织和串联作用,以及依然需要人的动作来形成整个闭环等。比如AI专家访谈,可以将AI自动整理的知识存在多种潜在可能性的时候,对人类专家发起邀约,通过具体项目过程的复盘补充和固化这些知识。这些在后面的文章,或者TorchV新版本企业知识库产品正式发布的时候再做进一步说明吧。

3.2 知识应用

由于在3.1中篇幅没有控制好,所以在知识应用章节我不想讲太多,只想分享一下应用形态。

知识库作为AI系统中的底层组件,可以通过API被任何应用所接入,如我们的很多客户会在TorchV知识库上面对接dify,所以从应用形态上来说其实被没有明显约束。但AI知识库也有一些非常契合的自带应用,适用于绝大多数企业客户的使用。TorchV对于知识库的默认AI应用可分为三类:帮我找、帮我写以及帮我做。


帮我找的形态相对比较简单,主要还是Chatbot,包括实时交互的RAG问答,以及异步的Deep Research。

帮我写主要是基于在线编辑器,包括常见的合同、标书、会议纪要、邮件等的编写,其特点是已经连接了写这些文档内容所需要的知识,很多时候只需一键生成即可。如图7所示。


帮我做则更多是操作类型的,比如请假、预约会议室等。界面是双栏模式,左侧带有界面,有一些操作在有界面的情况下更方便,下图是预约会议室的界面。


3.3 知识运营

知识库很多时候就和人的身体一样。人的身体每天都会产生很多自由基,如果没有有效的清除机制,人马上就会生病。知识库也一样,每天有不断的新文档和新知识进来,极易造成知识库内部产生很多噪声,影响到知识检索的准确性和知识使用效果。

关于知识运营在后续的文章中会专门讲述,本文主要介绍一下知识运营主要的手段:

  • 知识降噪:包括重复文档和冲突文档的定期检查—发现—推送给知识管理人员(进行处理),该动作主要是针对重要知识的处理,不建议AI自动处理相关知识的重复或冲突解决。当然,在企业内部已经具备成熟的知识管理制度和处理经验之后,也可以让AI自动对知识重复和冲突进行直接处理。
  • 知识刷新:还有一类是知识自动刷新,就是明确知道新知识是可以替代老知识的,我们可以使用AI自动替换,并更新原有文档在系统中的各种链接和被引用。另外就是知识状态的更新,比如项目计划中,替换项目经理人选等。最后一种是针对具备时效性的知识,有更新的,或者过了保鲜期的,就需要变成冷知识。

四、总结

为什么AI应用在toB侧常常会感觉让人失望?听听我们的一些客户是怎么说的。

我们深度交流与合作过不少处在AI应用第一梯队的客户,他们说的,应用是建设导向,是目的,没错。但AI企业知识库是根基,是企业真正应该去花大力气夯实的地方。更多的就是如何让企业从自身的业务资料中形成知识,让知识可以被AI所用。他们觉得应用反而不应该是我们这些厂商操心的,因为业务因企业和岗位特有差异,他们自己才是最懂业务的人,自己才是最知道应用怎么做才能真正发挥价值的。他们可以使用外包驻场开发,或者使用Dify等工具进行工作流编排。而AI企业知识库才是他们真正需要我们这样的产品技术型厂商帮助的,因为这里面涉及到一整套带有理论知识、最佳实践、系统化和技术难题的综合产品,确实不是依靠自身能力或普通外包人员可以解决的。而AI企业知识库恰恰却决定了企业AI应用是否可以达到要求。

企业在AI时代的竞争力,不再仅仅是模型谁更大,还有谁的知识掌控得更好。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询