我要投稿

DataWorks Copilot 在 ETL 与 BI 的应用实践

发布日期：2025-06-04 18:15:59 浏览次数： 2353

作者：DataFunSummit

微信搜一搜，关注“DataFunSummit”

导读本文介绍了 DataWorks Copilot 在 ETL 与 BI 的应用实践。

本次分享围绕五核心主题展开：

1. DataWorks Copilot 的演进路线介绍

2. 产品层面的创新实践

3. 大模型在 ETL 与数据分析中的应用与技术探索

4. 未来发展方向与技术突破设想

5. Q&A

分享嘉宾｜许日阿里云高级技术专家

编辑整理｜Kathy

内容校对｜李瑶

出品社区｜DataFun

DataWorks Copilot 的演进路线介绍

现代企业数据架构的发展演进

1. 数据架构的演进

DataWorks 的定位是一站式智能大数据开发治理平台，其发展历程与现代企业数据架构的演进密切相关。数据架构从传统的数据库时代逐步发展到数据仓库、数据湖，再到如今流行的湖仓一体架构。DataWorks 在这一过程中不断适应新的技术趋势，支持多种数据存储和处理方式。

2. AI 与大数据的融合

随着技术的发展，DataWorks 强调 Data+AI 的结合，许多大数据引擎和数据库内嵌了 AI 能力。数据内容也从结构化数据向非结构化、多模态数据演变。DataWorks 在数据的收集、处理、分析、决策和自动化流程中持续优化，以适应新的数据处理需求。

3. 智能化的早期探索

在大模型技术盛行之前，DataWorks 已经开始尝试智能化功能，例如自然语言取数。然而，早期的自然语言取数技术在泛化能力上存在不足，难以在不同行业或场景中快速规模化应用。

4. 大模型技术的应用

基于大模型技术，DataWorks 对自然语言到 SQL（NL to SQL）的转换以及大模型应用进行了全面升级。通过大模型的推理和生成能力，DataWorks 在多行业场景中实现了更好的适应性和效率提升。2024 年，DataWorks 在云栖大会上发布了 Copilot，并于 2025 年 4 月推出了 MCP Server Tools，进一步优化了对主流大模型技术的支持。

产品实践与创新

1. DataWorks Copilot， AI 智能助手

DataWorks Copilot 是基于大模型技术构建的智能化数据开发助手，旨在帮助用户在复杂的大数据生态中提升效率、降低使用门槛。作为阿里巴巴自研的大数据平台，DataWorks 支持包括阿里云自研引擎（如 MaxCompute、Flink、Hologres）和开源大数据平台（如 Spark、StarRocks 等），其目标是通过 AI 技术赋能数据处理流程。

DataWorks 坚信“Data for AI，AI for Data”这一理念，即大数据为人工智能服务，同时人工智能也应反哺大数据开发流程。在此背景下，DataWorks Copilot 应运而生，成为连接大数据与 AI 的关键桥梁。

2. 下一代 AI 原生数据平台：从 Copilot 到 AI Agent

第一代：Copilot——借鉴 GitHub Copilot 模式，聚焦于 SQL 编程场景。

提供 SQL 自动补全、语法提示等功能，帮助用户快速完成复杂的 SQL 编写。

以代码级辅助为主，解决程序员在编写过程中重复性高、易出错的问题。
第二代：Agent——基于大模型的推理能力，实现任务级自主执行。

用户只需输入自然语言描述目标，系统即可自动解析并生成完整的调度任务、质量监控规则、报警机制等。

支持调用 MCP Server 或第三方工具组合完成端到端的数据处理流程。

3. Copilot：数据开发助手应用实践

（1）数据开发助手核心能力

SQL 生成：自然语言生成多引擎 SQL
SQL 问答：智能解答 SQL 相关问题
SQL 解释：将 SQL 转化为自然语言解释及翻译
SQL 补全：智能预测下一步编写任务
SQL 纠错：运行前后智能检测错误
SQL 注释：自动为 SQL 添加注释

（2）优势场景

时间函数差异问题：不同引擎的时间函数名称和参数不一致，传统方式需频繁查阅文档，Copilot 可智能识别并推荐合适函数。
窗口函数复杂度高：工程师通常依赖记事本复制粘贴模板，Copilot 可一键生成准确、高效的窗口函数逻辑。
跨引擎适配成本高：随着 Spark、Flink、ClickHouse 等引擎的切换，SQL 写法变化频繁，Copilot 可自动适配语法差异。

（3）实际效果验证

一次内部测试中，要求统计某学校各班级每 10 分区间的学生人数。
Copilot 生成的结果字段命名清晰（如“0~9 分”、“10~19 分”），逻辑精确，甚至优于资深工程师的手写结果。

4. AI Agent 自然语言交互界面

在完成 SQL 编写后，如何将其转化为可调度的任务链是 ETL 流程中的关键环节。传统做法需要手动配置定时任务、数据质量规则、报警机制等，操作繁琐且容易出错。

为此，DataWorks Copilot 引入了 LUI（Language-based UI）交互方式，允许用户通过自然语言描述需求，系统自动完成调度周期定义、数据质量规则设置等工作。

大模型应用技术与创新

1. 产品架构与核心能力

（1）基于 RAG +微调模型的分层应用架构

DataWorks Copilot 基于 RAG（Retrieval-Augmented Generation）架构进行设计，这使得它在处理大数据相关的任务时能够更加精准地理解和生成代码。
结合微调模型，DataWorks Copilot 能够根据特定需求调整模型输出，以适应不同的应用场景。

（2）前端设计：编辑器、问答系统与 Agent

产品的前端主要包括编辑器、问答系统以及 Agent 三个部分。其中，编辑器是目前使用最频繁的部分，而随着技术的发展，未来将更多依赖于问答系统和 Agent 来完成任务。
Agent 功能特别强调了自然语言处理（NLP）的重要性，通过自然语言指令即可实现复杂的数据操作流程自动化。

（3）前端优化与成本控制

DataWorks 在前端进行了大量优化，通过减少模型请求量，显著降低了成本。例如，通过前端优化可以减少 30% 以上的模型请求，这对于云厂商来说是一个巨大的成本节约。

（4）专属小模型的应用

在代码补全领域，DataWorks Copilot 使用了专门设计的小模型，这些模型被优化用于处理特定场景下的高效率要求。
通过不断迭代，从最初的 14B 参数规模逐步优化至 3B 甚至考虑 1.5B 规模，旨在找到性能与成本之间的最佳平衡点。

2. 技术创新点

（1）数据安全与隐私保护

DataWorks Copilot 支持内部独立部署的满血版 DeepSeek、Qwen 等模型，保证数据不出域，从而确保数据安全。

（2）SQL 领域的自动解析能力

DataWorks Copilot 具备自动化的 SQL 解析能力，通过分析历史数据和数据血缘关系，自动生成上下文感知的查询建议。

（3）Chat BI 的基础构建

Chat BI 作为 DataWorks 的一个重要发展方向，旨在提供一个开放的技术架构，支持自定义数据上传及云间数据调用等功能，并支持 MCP Server 集成，解决找表难题。Chat BI 还将利用阿里云的强大计算能力，实现快速的数据洞察，为用户提供更加准确的数据分析结果。

3. 效果展示

DataWorks Copilot 服务于超过 4 万活跃用户，月均处理量巨大，证明了其稳定性和高可用性。
生成并采纳 2000+ 万行代码，大幅提升开发效率。

未来创新与突破

1. Multi-Agent 场景化设计

（1）业务流程的全面覆盖

在大数据和 BI 场景中，主要涉及四个关键角色：业务方（提需求的人）、数据开发人员、数据分析师以及负责数据治理的专业人士。
DataWorks Copilot 设想通过理解这些角色之间的交互文档来构建一个智能编排系统，利用 MCP Server 能力和大模型技术，将业务需求转化为具体的执行计划。

（2）智能化编排与执行

数据处理流程通常包括数据集成、数据处理、任务调度等标准化步骤。通过预生成期望执行的各种计划（如 Markdown 格式），用户可以更高效地完成这些步骤，而无需频繁跳转不同页面进行操作。
这种方式不仅提高了效率，还解决了传统研发模式下代码与业务脱节的问题。

（3）知识库的动态构建

知识库的构建是连接业务需求和技术实现的关键。通过对业务规划文档和需求文档的理解，结合 MCP Server 的能力，DataWorks Copilot 能够自动生成加工代码或分析代码，并与文档内容关联起来，形成动态更新的知识库。

2. 基于 MCP 的 Multi-Agent 的技术架构

（1）API 泛化与 DSL 设计

DataWorks 拥有上千个功能和近 200 个官方透出的 API 接口。为了简化调用过程，DataWorks Copilot 设计了 API 泛化功能，并尝试引入领域特定语言（DSL）以简化 API 调用方式，使得大模型能更好地理解和执行复杂的任务指令。

（2）模型微调与协同机制

对大模型进行微调，使其能够更好地理解 DataWorks 的复杂功能和业务逻辑。同时，将这些微调后的模型能力内置到系统中，以便在需要时调用。此外，同时支持第三方 Tools 的集成。
利用最新的 agent-to-agent 协同技术，可以更灵活地应对各种需求链路，确保整个数据开发闭环的顺畅运行。

3. 安全与数据隔离

在实现智能化的同时，数据安全和隐私保护是至关重要的。DataWorks Copilot 将确保数据在不同用户和项目之间的严格隔离，防止数据泄露。此外，系统还将对数据进行脱敏处理，确保即使在多租户环境中，每个用户的数据也保持安全。

4. 未来展望与挑战

DataWorks Copilot 的未来发展方向是通过 Multi-agent 系统革新现有的数据处理流程，实现从需求文档到最终报告的全自动化链条。尽管这一目标面临诸多挑战，如数据安全问题及跨公司间的数据隔离要求，但其潜在价值巨大，有望显著提高数据开发效率，推动行业向前发展。

Q&A

Q1：在 DataWorks 环境中，如何精确地识别用户的查询请求属于哪个数据域或主题？特别是在阿里巴巴内部，面对跨 BU 的数据访问权限，系统如何确定用户查询的表？

A1：DataWorks Copilot 采用了以下策略：

1. 调用内部 API 进行找表：DataWorks 可以调用阿里巴巴内部的数据垂直部门提供的 API 来查找表。这些部门已经开发了专门的找表 API，DataWorks 可以通过这些 API 获取表信息，并基于这些表生成具体的 SQL 查询。此外，DataWorks 利用组织架构和项目空间信息进行路由，确保找到正确的表和数据域。

2. 集成第三方模型能力：对于一些大型部门，它们拥有自己的模型能力和算法，DataWorks Copilot 可以集成这些能力，以增强找表的准确性。

3. 手动指定表名：用户可以通过在自然语言查询中明确指定表名（例如使用@table_name），直接从指定的表获取所需数据。

Q2：当生成 SQL 后，在执行阶段可能会因权限不足而失败。系统是在生成 SQL 时就检查权限并提醒用户申请权限，还是等到最后执行时才进行权限验证？

A2：目前，DataWorks Copilot 的处理方式如下：

首先生成完整的 SQL 语句，然后在 UI 界面中通过警告提示用户哪些表或字段没有访问权限，建议用户申请相应的权限。
在执行前也会进行一次权限预检，如果发现权限不足，则不会提交任务，并提示用户需要申请权限。
当前策略倾向于不在 NL-to-SQL 过程中加入过多的权限逻辑判断，以免影响 SQL 生成的质量，而是更多地依赖于执行前的检查和用户反馈。

Q3：DataWorks Copilot 如何保证随着模型参数规模的减少（如从 14B 降到 3B 甚至 1.5B ），仍能保持接近大模型的效果？

A3：为了确保小模型也能达到良好的性能，团队采取了一系列优化措施：

样本挖掘（"挖草"）：强调微调样本的质量而非数量，通过精心挑选最具代表性的训练样本，提高模型的泛化能力。
数据集拆分：不同任务类型（如 SQL 补全、纠错、解释等）采用独立的数据集进行针对性训练。数据集并非越大越好，而是根据任务特征进行结构化拆解，确保训练效率与模型收敛速度。
模型压缩与蒸馏技术：采用知识蒸馏、量化、剪枝等压缩手段，将大模型的能力迁移至小模型上。结合本地推理优化，进一步提升小模型在高并发场景下的响应速度与资源利用率。
持续迭代与测试：模型上线后会持续进行 AB 测试，对比不同版本模型的效果差异，不断优化微调策略与样本构建方式。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业