我要投稿

面向 Data+AI 的新一代数智开发平台

发布日期：2025-06-05 18:20:32 浏览次数： 2064

作者：DataFunSummit

微信搜一搜，关注“DataFunSummit”

导读聚焦 Data+AI 融合趋势下的数智开发平台构建，系统阐述当前数据平台在烟囱式架构下的技术挑战，提出 WeData 面向 Data+AI 的新一代数智开发平台的四层设计方案。

通过 Setats 流湖一体引擎支持流/批/增量统一计算、多模态 TC Catalog 管理支持 Data+AI 全域资产治理、Serverless Computing 一体化计算资源、OneOps 一体化 Data+AI 开发环境等关键技术创新，实现数据全生命周期管理与智能开发效能提升。

实际应用案例表明，该平台在业务效率优化和成本控制方面具有显著优势，为企业数字化转型提供了新的技术路径。

介绍分为以下五部分展开：

1. LLM 时代的数据平台的挑战与进化

2. WeData：面向 Data +AI 的新一代数智一体化平台

3. Data +AI 一体化平台的关键技术

4. Data +AI一体化平台的应用

5. 总结

分享嘉宾｜史汉发腾讯数智开发平台WeData研发负责人，腾讯专家工程师

编辑整理｜王红雨

内容校对｜李瑶

出品社区｜DataFun

关键词

Data+AI；数智开发平台；一体化架构；智能开发；AI-Native

在数字经济快速发展背景下，数据与人工智能技术的深度融合成为企业提升核心竞争力的关键。传统数据平台采用烟囱式架构，导致大数据与 AI 系统割裂、计算存储成本高、数据处理效率低等问题。随着大语言模型（LLM）技术的成熟，数据平台亟需向更高效、智能的方向进化。本文基于腾讯 WeData 平台实践，系统探讨面向 Data+AI 的新一代数智开发平台的架构设计与技术实现。

LLM 时代数据平台的挑战与进化需求

1. 当前数据平台的挑战

在当前数据平台的实际应用中，用户需依据多样化的业务场景选择适配的计算框架：

批量处理场景：通常选用 Spark 引擎，对大规模数据进行离线批量计算；
交互式查询场景：倾向于采用 SR 等计算引擎，以实现快速的数据检索与分析；
流式数据处理场景：普遍使用 Flink 引擎，实时处理持续产生的数据流；
数据科学领域：常采用 TensorFlow 等框架，用于机器学习模型的开发与训练；
大语言模型（LM）训练：一般会选择 DeepSeek，支撑复杂的模型调优。

当大数据平台完成数据加工，需要将数据直接供给至 AI 平台用于模型训练或预测；或 AI 模型预测出的数据反馈给大数据平台进行消费时，均需在两个平台间进行数据来回搬运。这种基于多种工作负载构建的烟囱式架构，衍生出一系列亟待解决的问题：

开发隔离问题：大数据平台与 AI 平台相互独立，用户无法在单一平台内完成数据清洗、加工、分析，以及机器学习（ML）模型的训练和推理等全流程工作，导致业务流程分散、效率低下。
存储、计算成本高昂问题：数据在大数据与 AI 两套系统间频繁搬运，不仅增加了数据传输成本，还使得计算资源难以实现跨平台复用，造成计算和存储资源的双重浪费。
数据处理门槛高问题：对非结构化数据处理、管理能力不足，数据代码工程效率低，缺乏自动化与自然语言交互。
应用与对接难问题：AI 技术尤其是大语言模型（LM）应用，与现有数据平台接口的集成难度较大。此外，缺乏统一的数据权限管控体系，在数据访问、使用过程中，易引发数据隐私泄露和安全风险。

2. 平台进化方向

随着 DeepSeek 的出圈，企业可以更低门槛的落地 AI 技术，在 LLM（大语言模型）时代，大数据平台将迎来三个方面的进化：

更一体化：打造面向数据工程与数据科学的一体化平台。实现一份数据和计算资源，同时服务于数据分析与AI应用，打破数据与应用间的壁垒。
平台 AI-Native：AI Driven 大数据开发平台，提升数据工程开发效率和运维效率。
Data Driven LLM 应用：数据进一步推动 LLM 大模型应用落地,实现数据与通用 AI 能力的深度融合。

“Data+AI”一体化架构主要解决企业在大数据和 AI 业务中的痛点。它能在同一套数据基础上，支撑多样化的业务负载，帮助企业简化架构，提高数据的分析和应用效率，降低管理和运营成本。

3. 未来 Data+AI 一体化架构设计

未来 Data+AI 一体化平台会在一份数据基础上，支持多种大数据及 AI 业务负载，帮助企业有效简化架构，提升数据分析效率，从下到上大概分为以下层次：统一 Lakehouse 存储、统一元数据，多元异构高性能引擎和 Data+AI 一体化开发平台。

WeData 平台升级

今年 WeData 会全新升级，推出面向 Data+AI 的新一代数智开发平台 WeData3.0：在数据湖仓层我们提供了统一 Lakehouse 存储格式打通流湖、AI 计算引擎对数据的访问，同时提供统一的元数服务，实现结构化数据和非结构化数据的统一管理；

在计算引擎层：WeData 深度适配 Spark、Flink、Ray、Tione 等几十种大数据和 AI 计算服务；我们提供了统一的数据开发：在原有基础上进行全面的架构和云原生化升级，通过统一开发 IDE，打通 AI 开发平台 Tione 和 Agent 平台 LKE，新的工作流可以一体化编排数仓节点、Flink 流式节点和 AI 模型训练节点，支撑多元计算引擎的协同数据开发；

在此之上我们提供了统一 Data+AI 数据治理体系，在传统结构化湖仓资产之上，增加了对 AI 资产的覆盖。全新推出数据血缘，从数据集、数据处理、模型训练到，推理服务，全链路可视化数据血缘；然后基于高质量资产、指标建模构建出统一语义模型的资产知识库，供给到数据智能应用。

同时在统一数据开发、数据治理链路中我们会融入 AI-Native 能力如代码生成、自动 ETL 配置，来提升数据代码工程效率。

关键技术实现

以下逐层介绍“Data+AI”架构的关键技术点：

关键能力 1:统一 Lakehouse 存储：Setats 流湖一体引擎

传统 Lambda 架构，离线链路使用 Spark 基于 Iceberg 进行多层数据之间的转换；实时通过 Flink + Kafka 的方式来进行分层链路的构建；这套架构会存在以下挑战：多套存储计算， Kafka 与 Flink State 维护成本高，实时链路数据回溯较难；离线链路存储架构是基于文件系统，分钟级延迟几乎是极限；

基于这些挑战，业界近些年也在探索解决方案：

方案 1：直接流式数据作为增量日志，同时 upsert 到表中，提供离线查询能力，存在数据延迟高，增量日志不完整缺少所有字段、update before 信息；

方案 2：将流式数据先缓存，然后定期与远程数据进行合并，再产生增量日志和更新远程数据，数据和增量日志延迟都比较高；

方案 3：将绝大部分数据缓存在本地并通过本地合并，再产生增量日志和更新远程数据，除非本地能缓存所有数据，否则无法产生完整增量日志；

为实现秒级延迟和完整增量日志，推出 Setats 流湖一体引擎：

Setats 在存储层实现一个高性能的实时数据合并引擎，当新数据到达时，可以马上与远程历史数据进行合并，产生完整的增量日志和更新后数据，实现秒级延迟

实时数据合并引擎在底层引入冷热分离的行列混存，与多级文件索引，并实现全异步的数据读写从而做到在秒级可见的前提下，实现 2 倍的性能提升

同样基于高性能数据合并能力，我们可以将传统 flink state 也存储到 setats 中，上层计算任务可以快速启停，进而可以将常驻流计算任务转化为定时增量计算模式。这样就实现了流、批、增量多种计算模式的统一支持，用户可以基于成本和延迟目标进行动态选择。在某出行客户应用中，告警实时处理效率提升 30%，数据存储成本降低 40%，IDC 资源节约超 30%。

关键能力 2：Unity catalog 多模态元数据目录和治理

传统 catalog 的问题：不管是早期的 Hive Metastore 还是近些年以 Doris/SR 为代表的 Muti-Catalog 都存在一些挑战：缺少对非结构化数据的管理，缺少统一数据面权限管理：同一份数据目录不同计算引擎需要在多平台，多次对用户授权等问题。
TCI catalog 解决方案：在 TC-catalog 层抽象出 table、 volume、model，实现传统结构化数据、非结构化数据（如文本/音频/视频）和 AI 模型等元数据统一纳管，并提供统一的处理和 Rest API 协议。在次基础之上构建全域资产盘点、全链路血缘、统一权限管理，成本治理等治理服务。
带来的优势：实现多模态数据统一管理，单一真相来源，减少业务因数据口径差异产生的问题；让大数据和 AI 引擎能平等访问数据；只需对用户进行元数据一次授权，即可在多引擎使用，多数据源注册后支持联邦查询；通过全链路数据和模型血缘跟踪分析，实现统一访问审计和成本治理。

关键能力 3：-一体化大数据和 AI 计算资源

当前数据平台用户需要购买多种资源如大数据提交/计算资源、AI 资源；每种资源都有自己度量、镜像机制，资源直接相互隔离，无法最大化使用资源效率。

第一层：数据计算与 LLM 任务统一调度融合：

实现了资源组全面 Serverless 化，从原来多类型资源组统一为通用型资源组，不区分用途，可以使用平台全部能力，同时统一资源配额 Quota 管理，减少资源碎片化问题，用户付费灵活，按需使用

第二层：数据计算与 ML 计算资源融合，融合 ML 和计算资源，基于一体化调度实现大数据和 AI 作业混部，结合原生弹性扩缩容，提高资源利用率

第三层：数据计算与 ML 编程接口融合：推出统一编程接口，一套 Python 代码可完成数据处理和模型训练，避免跨平台读写和数据导入导出

关键能力 4：One Ops 一体化开发环境

当前我们是在多套平台进行大数据和 AI 的开发，客户需要在大数据编排平台开展 DataOps，在 AI 训练平台开发和维护另一套 AI 代码，上游数据变更不能及时同步下游 AI 应用，带来更大运维成本；

基于此我们在 Serverless 资源组之上构建统一 Notebook 开发 IDE,允许用户自定义镜像，对接 GIT，一站式支持大数据、模型训练的统一编排

这样带来的优势：大数据与 AI 统一编排调度：多计算引擎、模型训练节点统一协同编排，一站式实现样本清洗、ML 训练、推理服务，全链路追溯和可视化展现数据、模型血缘，加速 AI 模型的迭代；

同时在开发全链路上 AI-Native 化：内置 Copilot 实现大数据开发的自动补全、代码生成、纠错等；开发流程上提供各类 Agent，实现自动建表、找数、图表见解等能力

我们在数据开发和治理链路开发了很多 Tools，如不同语言类型的代码补全、纠错，元数据补全，自动 ETL 流程通过 WeData MCP Server 提供给 WeDataAgent，来提升用户数据代码工程效率。

应用实践与效果验证

1. 国际商业化平台案例

国际某商业集团使用 ADF + Databricks 进行数据分析及 ML 应用一体化开发（如销量预测）,目前已迁移到腾讯云大数据，整体成本相比原来 Databricks 降低 70% ，一体化平台完成数据分析和 ML 训练与推理的同时，实现全域数据资产统一视图和治理。

2. 新能源汽车行业案例

某新能源汽车采用云端大数据处理和 IDC 机器学习平台分离的架构，随着车辆交付数不断激增，希望建立 Data+AI 一体化的架构，降低两套系统的维护成本，迁移到腾讯云大数据，一体化平台完成车辆数据处理与机器学习。

结论

面向 Data+AI 的新一代数智开发平台通过架构创新与技术突破，有效解决传统数据平台的核心痛点。该平台在提升数据开发效率、降低运营成本、拓展数据价值等方面展现出显著优势，为企业数字化转型提供了可落地的技术解决方案。未来，随着 AI 技术持续演进，该平台将在更多行业场景中发挥重要作用。

以上就是本次分享的内容，谢谢大家

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业