我要投稿

GenAI的多模态数据智能平台如何构建？

发布日期：2025-08-04 08:10:38 浏览次数： 2028

作者：ruby的数据漫谈

微信搜一搜，关注“ruby的数据漫谈”

摘要：在snowflake的《人工智能+数据预测2025》报告中提到，“数据平台的下一个演进不仅关注格式化、存储和访问数据，还关注将其置于上下文中”。这里的说的上下文，是指大模型在输出的时候，需要给它提供的上下文参考或知识背景。所以说未来的数据平台的发展是为了大模型的生成而构成的知识而存在。本文将介绍，为了应对AI大模型的应用，数据平台在过去传统的湖仓一体的架构上演进的方向。

企业落地知识库的困境
AI多模态的数据智能平台

—

企业落地知识库的困境

过去两年，生成式人工智能（GenAI）技术迅猛发展，企业已普遍意识到基于 AI 大模型实现智能化升级的重要性，不少企业纷纷启动相关技术的预研与试验性落地。但通用 AI 大模型本质是对海量公开知识的压缩，在企业级场景落地时，难免出现对企业专属语言和业务理解偏差的问题。

对于绝大多数企业而言，解决自身商业问题的精准度要求颇高。要让通用大模型在行业场景中提升业务问题解决的精确度，无论是对通用模型进行行业适配的精调，还是采用 RAG 架构实现知识外挂，都离不开企业自有高质量数据的深度融入。而面向行业的 GenAI 方案，对企业数据的需求往往是混合且多模态的 —— 既包括已通过数据基础设施（Data Infra）处理完善的结构化及半结构化数据，也涵盖过去未加处理的多模态非结构化数据。这种复合型数据需求，给企业落地 GenAI 带来了巨大挑战。

观察大量企业的 GenAI 实验落地过程，我们发现主要存在以下问题：

一是严重的数据碎片化问题。在 GenAI 浪潮来临前，企业数据处理的重心多放在结构化数据的整合与优化上，不少企业通过打破烟囱式业务系统搭建了数据中台。但 GenAI 应用场景对数据的要求远超以往，尤其是多模态数据的整合 —— 非结构化数据常分散在云盘、内部即时通讯工具、对象存储、业务系统、服务器文件系统及个人设备中，创建与存储时缺乏统一管理流程；而结构化数据在 GenAI 场景中需与非结构化数据混合使用，不同数据类型间的关联进一步加剧了碎片化程度。企业不仅要高效整合这些异构数据源，还需实现权限与隐私的分级管理，以满足合规与安全要求。

二是异构多模态数据整合的复杂性。要让 GenAI 在业务场景中真正创造价值，企业需同时整合结构化、半结构化和非结构化数据并融合使用。其中非结构化数据因格式与模态多样（如 Word、PPT、PDF、JPEG、WAV、MP4 等），每种格式都涉及复杂的解析与治理流程。以 PDF 为例，其处理链路包括版式检测与分割、内容识别（文字、表格、图片等）及特征抽取；若要进一步与结构化、半结构化数据整合，整体链路的复杂性会成倍增加。对于缺乏深厚数据与 AI 工程能力的企业而言，这些技术门槛难以跨越。

三是规模化部署和管理难度高。GenAI 应用与多模态数据处理对 IT 基础设施的依赖极强。构建一个仅用数十份文档的 RAG 演示 Demo 相对简单，但在真实的大型生产环境中，企业通常需处理 PB 级数据，进行复杂的模型精调与训练。这不仅需要大量高性能 GPU、CPU 提供算力支持，还需依托大容量存储和高带宽、低延迟的网络架构；同时，底层资源管理平台必须具备资源调度与自动化扩展能力，支持多模态数据的预处理与存储，并以云原生架构为基础，确保跨环境的灵活部署与高效管理。

四是数据召回与输出准确率的局限。作为 GenAI 的核心技术，大模型本质上基于概率分布生成输出内容，这一特性使其难以在高要求的企业业务场景中实现完全精确。准确率不足直接影响商业价值，因此结合企业自身数据进行模型精调或采用 RAG（检索增强生成）框架成为必然选择。但这些优化技术存在较高门槛：例如在 RAG 框架中，基础的向量语义搜索对短词短句提问的效果欠佳，难以满足高精度业务需求，需引入关键词匹配、全文检索等多种搜索方式补充；而在企业普遍期待的 Chat2BI 场景中，大模型直接生成的 SQL 准确率较低，需通过语法校验、结果优化等工程化手段提升实际可用性。

GenAI的价值已被企业广泛认认可，并且在逐步初步落地中，然而在落地国产中，企业的高质量的自有数据一直都成为落地过程中耗时久，且难度大的工作。而且很久以来，非结构化的数据的潜在价值也并未得到充分的发挥，如果将企业的非结构化数据准备到AI-Ready的高质量标准，面料工程复杂性和资源成本高的挑战，行业亟需一套高效且全面的解决方案，来应对混合多模态数据的整合与利用。

—

GenAI多模态数据智能平台

为解决这些挑战，通过统一的底层资源管理、全链路数据治理、多模态数据融合存储、建模及搜索能力，搭建了一套端到端的数据智能架构。如下图所示，该解决方案自下而上分为四个层次，分别是基础设施层、数据库及AI服务层、数据集成与治理层、以及应用交互层。这四个层次环环相扣，共同构建出一个强大的数据智能解决方案。

基础设施层

作为整个解决方案的 IT 资源根基，基础设施层整合了 CPU 与 GPU 的计算能力，可支持大规模并行处理，为 AI 模型运行和数据处理提供高效算力支撑。同时，其具备的容器编排与管理功能，能有效提升系统的可扩展性与灵活性，助力企业实现高效的资源调度与负载均衡。

数据库及 AI 服务层

该层是数据库与 AI 模型能力的核心载体。它支持对结构化、半结构化及非结构化数据进行融合存储与建模，还提供 LLM 模型、Embedding 模型、自定义模型训练功能，以及快速搭建智能体的工作流工具，为上层应用提供坚实的技术底座。

数据集成与治理层

主要负责从各类数据源中采集数据，进行清洗、转换、统一预处理和特征工程。无论是结构化、半结构化还是非结构化数据，都能在此实现整合与处理，以此保障数据的质量与一致性，为后续的数据分析和 AI 模型训练筑牢数据基础。

应用交互层

这是用户与方案进行交互的接口层。用户既可以直接使用我们提供的多模态搜索、Chat2BI 等终端应用，也能借助 API 及工作流工具自主搭建相关应用，满足多样化的使用需求。

—

关键技术说明

在数据集成与治理层中将非结构化数据处理成知识的过程中常见的方法是将word、txt等文档统一转化成pdf，然后通过pdf提取技术，将内容进行分块提取成分段的文本数据切片，然后向量化存储到向量数据库。同时在存储到向量的知识库的时候，根据向量知识库的要求，需要对不同的文本数据切片进行关键词打标签，这里的关键词标签则是特征工程。这里涉及到两项关键技术，pdf的内容提取和特征工程的技术。

一、PDF文本内容与表格提取的方法

在 PDF 文本与表格提取的实践中，不同技术各有侧重，其适用场景、优势与劣势的差异十分明显，具体如下：

简单文本提取：PyPDF2 与 fitz

PyPDF2 是 Python 生态中一款经典的 PDF 处理库，它的核心优势在于轻量易上手，仅需几行代码就能实现基础的文本提取功能，对于纯文本类 PDF（如小说、文档等）的提取效率较高，且对系统资源占用较少，非常适合编程初学者或快速验证简单需求的场景。但它的局限性也很突出，对复杂排版的 PDF（如包含多列文本、特殊字体的文件）支持不足，容易出现文本错乱、漏提取的问题，且不支持表格提取，功能较为单一。

fitz（即 PyMuPDF）则在性能上更具优势，它基于 MuPDF 引擎开发，文本提取速度比 PyPDF2 快数倍，同时能较好地保留文本的原始排版信息（如字体大小、颜色标记等），对于包含简单格式的 PDF（如带有标题层级的文档）处理效果更优。不过，fitz 的 API 设计相对抽象，新手需要一定时间熟悉，且在处理加密或损坏的 PDF 时稳定性欠佳，可能出现提取中断的情况。

表格与精确文本提取：pdfplumber

pdfplumber 的核心竞争力在于对文本和表格提取的高精度把控。它能深入解析 PDF 的底层结构，精准识别文本的位置、行距等排版细节，提取的文本几乎与原文档格式一致；在表格提取方面，即使是包含合并单元格、斜线边框的复杂表格，也能完整还原其行列结构，输出结构化数据（如 DataFrame），极大降低了后续数据处理的难度。

但它的短板也较为明显：一是处理速度较慢，尤其是对页数多、包含大量图片的 PDF，提取过程可能出现卡顿；二是对扫描版 PDF 完全无效，只能处理原生可编辑的 PDF；三是安装过程中依赖较多系统库，在部分 Windows 环境下可能出现兼容性问题。

复杂 PDF 处理：pdfminer

pdfminer 是一款偏向底层的 PDF 解析库，它的最大优势是灵活性极强，允许开发者自定义解析规则（如根据文本坐标筛选内容、提取特定区域的信息等），能应对各种复杂排版的 PDF（如多栏混排、图文穿插的学术论文、报告等）。此外，它对 PDF 的元数据（如作者、创建时间）提取支持完善，还能保留文本的字体、字号等格式信息。

不过，这种灵活性是以较高的使用门槛为代价的，其 API 设计较为繁琐，需要开发者熟悉 PDF 的内部结构（如页面对象、文本块等），入门成本远高于 PyPDF2；同时，它的提取效率较低，对大规模 PDF 处理场景的适配性较差，且不支持表格的自动提取，需结合其他工具二次开发。

扫描 PDF 处理：pytesseract 与 PaddleOCR

pytesseract 是 Google 开源的 OCR 引擎封装库，它的优势在于支持多语言识别（包括中文、英文、日文等），且能与 Python 生态无缝集成，对于分辨率较高、文字清晰的扫描 PDF（如扫描版合同、证件等），提取准确率可达 80% 以上，且完全免费，适合个人开发者或低成本项目。

但它对图像质量极为敏感，若扫描件存在模糊、倾斜、噪点多等问题，识别准确率会大幅下降，甚至出现乱码；同时，它对复杂排版（如多列文本、重叠文字）的处理能力较弱，且不支持表格的结构化提取，需配合图像处理库（如 OpenCV）预处理后才能提升效果。

PaddleOCR 则是百度开源的 OCR 工具，在中文识别上表现更优，自带的文本检测与识别模型对倾斜、模糊文本的容错率更高，且支持表格结构化提取（能输出表格的行列坐标与内容），开箱即用的特性降低了使用门槛。不过，它的模型体积较大，首次运行需要下载近百兆的预训练模型，对设备算力有一定要求，在低配电脑上可能出现卡顿，且多语言支持的完善度略逊于 pytesseract。

商业应用：aspose.pdf

aspose.pdf 是一款商业级的 PDF 处理组件，支持.NET、Java、Python 等多语言接口，其核心优势在于稳定性极强，能处理各种复杂格式的 PDF（包括加密、动态生成、混合排版等），文本与表格提取的准确率高达 95% 以上，且支持批量处理 PB 级文件，还提供完善的技术支持服务，非常适合企业级生产环境（如金融、医疗等对数据准确性要求极高的场景）。

但它的成本较高，需要按授权类型（如按设备、按用户）付费，对于中小企业或个人项目来说可能是一笔不小的开支；同时，其开源生态支持较弱，自定义开发的灵活性不如开源工具，且部分高级功能（如复杂表格修复）需要额外付费解锁。

简化提取流程：textract

textract 是一款封装了多种底层解析工具的 “一站式” 提取库，它能自动识别 PDF 类型（原生或扫描），并调用对应的工具（如 pdfminer 处理原生 PDF、tesseract 处理扫描 PDF）完成提取，无需开发者手动判断文件类型，极大简化了开发流程，适合快速搭建原型或多格式文件统一处理的场景。

不过，这种 “封装黑盒” 的模式也带来了局限性：提取过程的可定制性差，无法针对特定 PDF 优化解析规则；同时，由于依赖多个底层工具，安装过程复杂（需要配置多种系统依赖），且提取效率受底层工具性能限制，不适合对速度要求高的场景。

智能表格提取：camelot

camelot 是专注于 PDF 表格提取的工具，它的核心优势在于能智能识别表格的边框、合并单元格、斜线等复杂结构，甚至能处理无明显边框的 “隐性表格”，提取后直接输出结构化数据（如 CSV、Excel），准确率比通用工具高 30% 以上，对于财务报表、数据手册等表格密集型 PDF 非常实用。

但它仅支持原生 PDF 的表格提取，对扫描版 PDF 完全无效；同时，若表格内存在跨页、文字重叠等情况，可能出现表格拆分错误；此外，它的提取速度较慢，处理百页级 PDF 可能需要数分钟，且对非标准表格（如嵌套表格、不规则行列）的识别能力仍有提升空间。

二、非结构化数据的特征提取

在介绍非结构化数据特征提取的关键技术之前，我们先来了解一下什么是特征提取。

文本的特征提取

文本的特征提取是将文字内容转化为计算机可识别的结构化信息，捕捉文字背后的语义、情感、主题等关键属性。比如在电影评论情感分析任务中，对于 “这部电影剧情紧凑，演员演技精湛，太好看了！” 这样的文本，特征提取会先去除 “这部”“太” 等停用词，再通过 TF-IDF 计算 “剧情紧凑”“演技精湛”“好看” 等词的权重，这些词就是体现 “正面情感” 的核心特征；也可以用 Word2Vec 将 “好看” 转化为向量，与 “精彩”“出色” 等词的向量距离较近，以此捕捉语义关联，让计算机理解这些词表达的积极态度。

图片的特征提取

图片的特征提取是从图像中提取颜色、形状、纹理、物体轮廓等视觉特征，帮助计算机识别图像内容。例如在人脸识别场景中，算法会先定位人脸的关键点位（如眼睛、鼻子、嘴巴的位置），这些点位的相对距离、形状就是重要特征；再提取面部纹理（如皮肤的光滑度、皱纹分布）和颜色特征（如肤色深浅），通过这些特征的组合，计算机能区分不同的人脸。又如在识别 “猫” 的图片时，特征提取会捕捉猫的三角形耳朵、胡须形状、毛茸茸的纹理等独特视觉属性，让计算机能从众多图片中精准识别出猫。

视频的特征提取

视频是由连续帧图像和音频组成的动态数据，其特征提取需结合视觉和听觉信息，捕捉运动、时序变化、声音内容等特征。比如在足球比赛视频分析中，视觉上会提取球员的运动轨迹（如跑动方向、速度变化）、足球的位置移动等时序特征，判断攻防态势；听觉上会提取裁判的哨声、观众的欢呼声等音频特征，辅助定位关键事件（如进球、犯规）。再如在监控视频中，特征提取会捕捉画面中物体的运动模式（如行人的步态、车辆的行驶路径），结合连续帧的变化，识别出 “异常奔跑”“车辆逆行” 等异常行为。

不管是文本、还是图片、视频的特征提取，对于存储到知识库中都是关键词，对于rag技术来说，就是知识切片的关键词，通过这些关键词，用户输入的内容通过匹配这些关键词检索出来的内容作为大模型输出的上下文参考，通过为模型提供精准的 “素材锚点” 和 “语义约束”，能显著提升生成内容的准确性、连贯性和贴合度，例如在撰写行业报告时，大模型会利用文本特征中的 “行业术语向量”（如金融领域的 “ROI”“流动性风险”）和 “主题关键词”（如 “2024 年消费趋势”），确保生成内容贴合专业场景，避免出现术语错误；生成小说时，通过提取的 “人物性格标签”（如 “暴躁”“内敛”）和 “情节时序特征”（如 “起因 - 发展 - 高潮”），让人物对话符合设定，情节推进逻辑连贯。

以下是当前文本、图片、视频特征提取领域最热门的开源技术及其核心特点：