免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


降本增效,智启未来—央国企 Data+AI 数据治理实践与探索

发布日期:2025-10-14 19:30:54 浏览次数: 1543
作者:DataFunSummit

微信搜一搜,关注“DataFunSummit”

推荐语

央国企数据治理如何借助AI实现降本增效?百分点科技分享实战经验与破局之道。

核心内容:
1. 央国企数据治理面临的四大核心挑战
2. AI技术在数据治理中的创新应用方案
3. 智能治理工作流建设与落地场景案例

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

导读 本次分享主题是百分点科技在央国企以 Data+Al 相关的数据治工作以及具体落地场景。

主要包含以下 6 项:

1. 时代之问-当前数据治理面临核心挑战

2. 破局之道-成熟大语言与开源智能体

3. 核心架构-智能治理工作流建设

4. 场景案例-高质量数据从无到有,从有到优

5. 价值分析-降本&增效&提质

6. 问答环节

分享嘉宾|申镇 百分点科技集团股份有限公司 咨询总监

编辑整理|龚萱

内容校对|郭慧敏

出品社区|DataFun




扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅ 有心得体会想分享?群里聊!

扫码入群参与讨论

图片

01

时代之问-当前数据治理面临核心挑战

当前央国企的数据治理挑战主要包括四个环节。大多数企业正同步经历从信息化到数字化、再到数智化的转型,全力推进系统整合与统一建设。它们在搭建集团业务系统(如采购、合同、主数据管理)的同时,也在构建数据中台,推进数据分析、可视化,并落地AI应用,如智能体和智能问答、报告等场景。因此,目前面临的是数字化和数智化两条链路共同带来的数据治理需求。

在此背景下,传统央国企在数据治理中主要面临以下四大挑战:

(1)成本高昂

目前数据治理项目的投入基本都要百万起步,而且主要依赖于外部的咨询和服务厂商。不仅如此,在依赖外部厂商的情况下,前期准备工作的时间耗时很长,包括元数据盘点、生成数据资源清单、集团数据标准宣贯等。

(2)效率低下

尽管投入了很长的周期,但数据治理整体工作效率依然不高。其根源在于,2025 年之前的数据治理工作大多采用类似“手工作坊”的模式,高度依赖密集的人工劳动。这种人工作业方式会引发诸多问题,包括历史信息化建设遗留的元数据缺陷,以及数据标准制定后难以有效落地执行,导致数据治理的进度与效率已严重滞后于业务发展的实际需求。

(3)质量瓶颈

待治理的整体数据质量往往存在严重隐患,这主要是由于历史信息化建设过程中,同时采用了统建系统与自建系统并行的模式。这两种系统在数据定义层面存在天然的、系统性的偏差,导致"同名不同义""同义不同名"等基础性问题普遍存在。这些数据质量问题不仅直接影响当前数据分析工作的准确性与可靠性,更对未来计划开展的AI应用构成了根本性威胁,严重制约了数据价值的有效挖掘与呈现。

(4)价值量化

数据治理的价值量化尤为困难。如何准确衡量其对业务的赋能效果,以及计算具体的投入产出比,是管理层极为关切并要求明确的核心价值。这一根本性问题,严重影响了数据治理在央国企的落地与推广成效。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅ 有心得体会想分享?群里聊!

扫码入群参与讨论

图片

02

破局之道-成熟大语言与开源智能体

从 2025 年起,我们认为 AI 数据治理将依托两大核心能力:一是成熟的大语言模型,其发展已趋于稳定且应用门槛较低。该模型可视为全天候在线的数字劳动力,具备多模态处理能力,不仅能处理结构化数据,还能有效解析图片、文档、音频等非结构化数据。二是通过智能体或 AI 工作流的方式,可将大模型的能力提升至专家级水平。对刚才的这三类需求,我们通过 AI 加 BI 建设提升业务数据分析和数据洞察效率。

在现有大模型能力的基础上,我们需要一个上层的应用出口,即智能体开发平台。目前这类平台整体开发周期较短、能力较强,以 dify 为例,它支持提示词工程、知识库调用、工具集成以及工作流构建,包括对话功能和 AI 开发流程。同时,开源大模型生态(如 Hugging Face)已较为成熟,而主流智能体平台如 n8nMakeDify 和 Coze,共同构成了 AI 赋能治理的重要基础支撑。

企业数据治理的实施严格遵循 PDCA 循环管理方法,通过规划、执行、改进和检查四个关键环节形成闭环。为确保各环节有效衔接,我们设计了 16 个标准化工作流实现全流程覆盖。

在规划阶段,重点开展两方面工作:一是制定企业级数据治理战略,自上而下明确治理目标和实施路径;二是开展数据资产价值评估,通过系统分析识别高价值数据资产,为后续治理工作提供依据。规划完成后,将重点推进元数据管理、数据标准制定、数据质量提升和数据安全保障四大核心领域的详细设计与落地实施。

在完成各领域建设后,还需持续跟踪实施效果并不断优化改进。通过引入 AI 工作流技术,不仅能够显著提升各环节工作效率,更能推动数据治理体系从传统的成本中心逐步转型为具有持续价值创造能力的业务支撑平台,为企业数字化转型提供坚实保障。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅ 有心得体会想分享?群里聊!

扫码入群参与讨论

图片

03

核心架构-智能治理工作流建设

本次分享的核心内容是智能数据治理工作流的建设情况,包括现有工作流的构成及其运作机制。

AI 赋能数据治理工作的核心架构分为四层:

  • 第一层为传统的数据和设施基础层,依托现有 IT 资产,包括业务信息化系统、中台服务、数据治理工艺及元数据、数据质量等基础库,为上层提供资产支撑。

  • 第二层为核心大语言模型层,整合公有云与私有云能力,涵盖国内开源与闭源生态,如百度、智谱及开源模型 DeepSeek、通义千问、Kimi 等。

  • 第三层为智能体开发平台,提供工作流构建的基础能力,包括提示词编排、知识库、工作流引擎、工艺集及智能体封装应用功能。

  • 最上层为 16 个 AI 工作流,覆盖数据治理全流程,包括规划设计、检查与改进等环节。

基于当前架构,首先需覆盖 PDCA 全流程。纵向层面需覆盖数据治理主要落地领域,包括元数据、数据标准、数据质量和数据安全,同时纳入价值领域。价值领域涵盖数据治理规划,具体分为蓝图规划和资产价值分析。启动蓝图规划与资产价值分析后,需推进各环节具体工作:设计环节需进行元数据发现,随后纵向传递至数据标准领域,横向则需将元数据转化为数据资源清单。随着工作推进,逐步形成数据资源目录,并实施数据标准审核。

后续将针对各工作流展开详细说明,从领域划分来看,主要涵盖数据价值、元数据标准、安全与质量五大领域。各领域的构建工作内容依据企业内部需求及工作流职责边界进行定义。例如,在数据价值领域可规划 2-3 个工作流,专门用于高价值数据的识别与分析计算;元数据领域则可细分为 4-5 个工作流,涵盖元数据探查与血缘分析等环节。数据标准领域将主数据工作流纳入其中。需强调的是,各领域具体的工作流划分及内容需根据企业实际落地情况进行动态调整与扩展。

AI 大模型在企业工作流落地过程中面临的挑战,首要问题是信任机制的建立。鉴于大模型存在幻觉现象,在数据治理这一对准确性要求严格的场景中,通过四个维度确保可靠性:

  • 第一,为知识库依赖机制,通过将企业标准文件、制度文档等结构化知识注入知识库,使大模型在生成工作流内容时优先检索既定知识。例如生成字段业务定义时,系统将自动关联已有文档作为依据。

  • 第二,进行模型参数控制,以温度参数为例,当设定为0.1时可有效抑制话题随机性,从而规避模型输出不可控风险。

  • 第三,强调流程可追溯性,通过将 AI 工作流嵌入数据治理全环节(包括元数据探查、字段注释生成等),实现子流程的输入输出明确定义。典型流程可分为源数据读取、字段分析、规则推荐、等级汇总等标准化步骤,以此消除工作流黑箱问题。

  • 第四,确立人机协同机制,明确大模型仅负责生成初稿或底稿,最终需经领域专家审核确认。该框架构成了 AI 工作流落地的核心信任保障体系。

第二个挑战是如何将 AI 赋能数据治理的工作进行使用。首先,将 AI 作为调用者,调用企业的 IT 设施、数据平台和流系统,直接与系统交互。其次,将 AI 作为服务,嵌入数据治理平台,如在元数据管理平台添加 AI 按钮,并涉及业务系统。工作流落地分为三个阶段:

  • 第一阶段为爬行阶段,工作流独立,通过文件导入导出或直接连接数据库,快速解决问题,如导出数据库 schema 加数据示例发送到工作流生成内容,避免额外工作;

  • 第二阶段,AI 作为调用者,调用已有数据治理平台能力,如元数据管理平台的基础元数据信息,辅助生成业务元数据和管理员元数据;

  • 第三阶段为奔跑阶段,AI 主动介入事前和事中管理,如业务系统录入客户信息时,通过 API 审核录入结果,及时反馈解决质量问题。

接下来,我们详细介绍每一个领域工作流的内容。首先,在第一阶段蓝图规划领域,有两个工作流。

  • 第一个工作流是数据治理工作建议书,它集成成熟的数据治理方法论实践,并通过自然语言方式与项目负责人交互,生成严谨的数据治理蓝图规划建议书。示例中,一个能源集团计划三年内从安全领域实施数据治理任务,识别有价值资产并寻求数据难度建议;大模型融合用户意图和知识库,结构化输出建议,包括总结摘要、治理任务和价值分析、以及三年实施路线图。

  • 第二个工作流从资产视角分析,评估现有数据资产的管理成本和业务赋能方面,生成可视化数据资产评估指标。例如,客户主数据分析管理成本及其价值贡献领域如金融营销、风险控制和客户服务,通过成本-价值对比提供分析。

规划完成后进入设计阶段,覆盖元数据、标准、质量、安全四个领域。

在元数据领域,自动采集技术元数据,分析解读生成业务元数据,并分析血缘生成可视化血缘图谱。在标准领域,基于元数据推荐内容,结合知识库包括国标、行标、企业标准,从业务、技术、质量、安全维度推荐标准如业务名称、数据类型、质量规则和安全等级。在质量领域,根据标准输入、元数据输入和质量分析,输出质量技术规则并执行。在安全领域,覆盖分类分级和脱敏加密。示例中,元数据和血缘发现工作流在企业有新建表或 ETL 脚本变化时,自动识别变化内容、血缘变动,给出元数据变动情况和标注;标准推荐工作流以产品数据集为例,自动获取数据,解析剖析,知识库检索,多维分析,推荐标准内容如产品编码、数据类型、安全规则和质量校验规则,便于执行设计环节。

设计完成后进入实施落地环节,该环节较为复杂。例如,标准编制完成后需检测推荐标准与已有标准的差异,标准实施机器人扫描现有数据,通过语义分析、上下文分析,结合官方标准库,识别差异并给出具体改进建议。如识别企业四个领域中的 个业务库,针对客户等级分类标准,AI 处理给出总体标准符合率,并指出哪个系统不符合及如何改进。同样道理适用于质量和安全领域。在质量过程中,面临问题如不同系统中同一客户信息不一致,质量修复机器人总结不同客户信息,分析后推荐融合规则,例如客户地址以核心业务系统为准,手机号以最新更新的系统为准,给出更新建议便于快速修复。

资产沉淀是实施阶段落地后的两个工作流,主要涉及统一治理企业核心数据并展示治理结果。如果企业已有数据资产目录,需要动态更新它来保持活力和准确性。治理数据时,会遇到不同系统数据差异的问题,比如客户张北在不同系统中的手机号和地址信息不一致。通过主数据智能管家分析处理,这些差异被融合成一条黄金数据(准确且置信度高)。基于黄金数据,输出相关上下游表,并可一键处理。数据资产目录管理存在痛点:一是元数据更新时如何关联更新目录,二是目录展示形态不符合用户需求导致空心化(目录挂载但无人用或搜索不到)。解决方式是基于客户搜索经验和需求实时更新目录。另一个问题是如何持续更新核心目录,例如客户数据更新后添加新标签,这些标签坐落到目录中便于搜索。

在数据治理中,除了规划设计实施,运营是最核心的环节,这源于业界“三分治理,七分运营”的落地理念。我们需要解决运营问题,因为传统运营依赖静态规则和人工服务监控,这要求我们让规则更易被其他人员使用。从数据标准角度,标准需解决两个问题:一是如何让别人理解标准,以往标准以厚文档形式分发,仅专业人员能懂;为此,我们在企业标准文档基础上提供数据智能问答服务,客户可通过自然语言或业务视角查询,输出更业务化的标准解释,同时赋能标准审核工作。二是进行质量和评估时,规则固定化,例如核心交易系统中的金额和订单出现突发破坏性浮动;我们通过数据质量哨兵识别违反规则的情况来解决。

运营的第二阶段是进行安全预警和生命周期预警。安全预警主要针对权限管理,处理过度权限和沉睡权限,通过识别权限赋能后的日志点击和操作情况,定期回收权限。生命周期预警涉及数据生命周期规划,包括归档和销毁,通过定期识别数据访问日志,基于企业归档规则和销毁规则,自动推荐哪些数据应归档(从高性能服务器移到低性能服务器)或销毁,并生成销毁建议。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅ 有心得体会想分享?群里聊!

扫码入群参与讨论

图片

04

场景案例-高质量数据从无到有,从有到优

接下来介绍工作流落地到企业实际案例的背景:当前有一个企业,其下分为四个板块,这些板块的信息化和数字化能力正在同步建设。本年目标是进行实际运营和风险的精细化管理。目前痛点包括信息化系统和中台同步规划建设,企业需要首先输出一个完整台账,该台账主要包括完整的客户台账和合同台账。当前客户数据分布在多个业务系统中,这些系统数据不一致,例如 CRM 系统和财务系统记录不同,且每个信息属性不一致。

第一步是解决数据从无到有的问题,建立客户主数据可信数据集,实现从 到 的过程。传统数据治理需要人工配合和不同种类人员协作。如果采用 AI 智能工作流,第一块通过元数据血源自动发现多个业务系统中客户相关的表格字段,而传统方式需要人工采集和数据补全。第二块涉及标准,统一主数据标准规范需要汇集各系统表并自行分析设计;AI 能凝练识别系统表差异。第三阶段是融合和发布,融合时需解决属性融合问题,如 系统和 系统属性标准相同但数据不同,需考虑置信度和更新时间;发布时需统一发布数据状态并添加业务标签以便理解客户主数据集。

在解决从零到一的问题后,接下来需要解决持续运营的问题,这与上述工作流相关。例如,标准构建后如何对外服务;数据建设后如何展示在目录上;以及如何实际监测数据质量。此外,安全和生命周期问题可能赋能到客户主数据集上,帮助持续提升数据质量。

最后,关于数据价值量化问题,我们首先通过构建客户主数据体系并完善数据标签,使业务部门能够基于这些标签开展精准营销活动,从而有效提升活动转化率和产品销量。相较于传统数据治理模式,该方案展现出更高的投资回报率和显著缩短的实施周期。由于实施效率的提升,整体数据质量得到保障,客户满意度维持在较高水平。后续将通过数据资产价值评估体系对客户数据集进行量化分析,据此生成新的投资回报率模型,为未来数据战略的优化调整提供决策依据。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅ 有心得体会想分享?群里聊!

扫码入群参与讨论

图片

05

价值分析-降本&增效&提质

数据治理工作的价值分析,ROI(投资回报率)主要从降本、增效、提质三个维度展开。在降本方面,通过减少重复性手工劳动显著降低了人工成本。增效方面,AI 工作流实现了自动化流程,将任务处理周期从月级缩短至日级或周级。在提质方面,AI 不仅应用了传统质量规则,还引入了其他质量规则,并在修复过程中提供质量改进建议。在特定数据集场景的案例中,个月内核心数据质量提升至 99%,上线速度显著加快。需注意的是,该效果仅适用于特定数据集场景,其他案例可能无法达到同等效率。

在推进 AI 赋能数据治理落地的过程中,主要采用低成本、短周期的方式快速实现。具体包括五个目标:首先需实现战略对齐,确保治理目标与战略一致;其次强调人机协同,明确人与机器各自的定位与优势;此外还需考虑安全、组织适配及闭环工作等方面。

总结部分,首先希望通过数据资产价值分析,推动数据治理从成本中心逐步转向价值中心;其次旨在降低劳动密集和重复性工作;最后核心目标是提升数据质量。

当前 AI 工作流落地实践情况良好,未来期待通过单个智能体及多个智能体协同实现量化目标。后续将推进数据资产价值量化及数据治理民主化进程。核心在于把握 AI 时代机遇,重新定义数据治理工作。

06

问答环节

Q1:在这套 AI 数据治理框架下,人工与 Agent 的工作占比是如何分配的?

A1:若排除前期 agent 开发阶段,后续工作比例大致为二八分配:agent 承担 80% 的工作,人工负责 20% 的审核及对 agent 输出结果的调整,包括在输出不准确时提供输入以重新生成输出。

Q2:在制定数据标准时涉及"制定的依据"字段时,AI 是否能够自动查找相关国家标准或行业标准(如性别、职业分类等标准)?以替代传统手工查找方式,从而节省时间成本。

A2:大模型在通用标准识别方面表现良好,能够准确提供标准依据。在实际应用中,采用通用模型与知识库结合的方式,将历史项目积累的标准文件纳入知识库以降低模型幻觉风险。

Q3:不同业务场景的 AI 数据治理框架数据是否需要重新训练,是否需要训练专业的模型?

A3:该流程具有通用性,但针对不同场景需进行提示词和知识库的优化。例如,针对财务领域、人力资源领域及营销领域的数据集,均需进行相应调整,单一工作流并不适用于所有场景。

以上就是本次分享的内容,谢谢大家。

图片


分享嘉宾

INTRODUCTION


图片

申镇

图片

百分点科技集团股份有限公司

图片

咨询总监

图片

申镇,百分点科技咨询总监,主要负责央国企数字化+AI 解决方案领域,曾负责中国国新、中国融通、中国物流、中国中免、中国工艺、中投保等多个大型央企总部和二级公司的数字化项目整体咨询交付工作,对数据治理、主数据、数据分析、AI 工作流及智能体领域等领域有丰富的实战经验。

厦门大学校企联盟-大数据专家
畅销书《数据治理:概念、方法与实践》、《数据治理概论》作者
正在编制《智能数据治理:AI 重塑企业数据管理未来图景》,预计年内上市销售。

往期推荐


抖音集团数据血缘深度应用:架构、指标与优化实践

20万奖金跪求大模型应用神作!

亮数据亮相DACon北京大会:解锁公共网络数据,以高效合规的抓取策略驱动AI新纪元

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

快手广告领域的大模型技术探索与实践

腾讯大模型在网址安全的落地与思考

从智能体框架到产品:解密京东JoyAgent如何打造会自我演进的智能体系统

平安人寿ChatBI:大模型智能化报表的深度实践

从 Copilot 到 Coding Agent,AI 驱动软件开发的未来

理想汽车、平安产险、字节跳动和云器科技共同解锁AI时代智能体平台新范式

点个在看你最好看

SPRING HAS ARRIVED

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询