支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一文了解dify实现智能分析助手的三种方式

发布日期:2025-06-21 20:19:48 浏览次数: 1530
作者:ruby的数据漫谈

微信搜一搜,关注“ruby的数据漫谈”

推荐语

Dify作为智能分析助手的三种高效实现方式,让自然语言生成SQL变得简单易用。

核心内容:
1. Doris MCP服务:标准化协议驱动的企业级数据连接方案
2. HelloDB插件:自然语言生成SQL查询的数据库工具
3. Database插件:低代码驱动的全场景数据库交互工具

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

摘要:最近dify 作为可视化大模型开发框架,可以进行智能数据分析助手的搭建,而dify作为智能分析助手的核心功能是通过自然语言生成sql并执行和分析,本文介绍dify作为智能分析助手的方式MCP 服务(例如doris)、HelloDB 插件、Database 插件.


  • Doris MCP 服务:标准化协议驱动的企业级数据连接方案

  • HelloDB 插件:自然语言生成 SQL 查询的数据库工具

  • Database 插件:低代码驱动的全场景数据库交互工具



01

Doris MCP 服务:标准化协议驱动的企业级数据连接方案


Doris MCP 服务基于 Anthropic 开源的模型上下文链议(MCP),构建轻量化数据交互桥梁,解决大模型与异构数据源的接口统一问题。通过标准化通信协议,支持动态发现数据库、API 等资源,实现实时数据同步与安全访问。其无主节点分布式架构,可线性扩展处理能力,满足 AI Agent 高并发查询需求,同时通过加密认证机制保障数据传输安全,避免敏感信息泄露。
在dify的工具里面有一个插件,可以下载后进行连接mcp服务。
具体安装和连接mcp服务的可以参考链接:
Apache Doris + MCP:Agent 时代的实时数据分析底座

操作流程与集成要点

1、环境配置与服务部署
在 Dify 平台后台启用 MCP 服务模块,根据数据源类型(如 MySQL、PostgreSQL)配置连接参数,支持通过 HTTP/HTTPS 或 SSE(服务器发送事件)协议建立连接。对于本地部署场景,需在启动脚本中添加环境变量,指定数据库驱动路径及认证信息,确保服务节点与数据源网络互通。

2、动态资源映射与权限管理
通过 MCP 协议定义数据实体与操作接口,将数据库表、存储过程等映射为可调用工具。支持细粒度权限控制,基于角色分配查询、写入等操作权限,结合会话管理机制,实时监控数据访问行为,满足企业级合规要求。

如下图所示是创建了一个关于doris mcp查询数据并分析数据的agent。

这两个工具一定要用上,核心功能:实现数据库基础数据的检索与交互

一、支持结构化数据获取。

exec_query

核心能力:执行任意 SQL 查询并返回结果集,支持指定数据库(db_name)、目录(catalog_name)及结果限制(max_rows/timeout)

应用场景:通用数据查询场景,如业务报表生成、临时数据校验。

二、元数据管理服务

核心功能:提供数据库层级、表层级元数据的全方位查询,构建数据资产目录

数据库级元数据

get_db_list:获取所有数据库名称列表(支持指定目录catalog_name)

get_catalog_list:获取所有目录名称列表(需传入随机字符串参数确保唯一性)

表级元数据

get_db_table_list:获取指定数据库下表名列表

get_table_schema:获取表结构详情(字段名、数据类型、约束

get_table_comment:获取表注释信息

get_table_column_comments:获取表中所有列的注释信

get_table_indexes:获取表索引信息(索引名、字段、类型等)

典型价值:支持数据治理中的元数据自动建档,辅助低代码工具生成可视化表结构。

三、SQL 优化支持服务

核心功能:提供 SQL 执行全链路分析工具,助力查询性能调优

get_sql_explain

能力:生成 SQL 执行计划,支持详细模式(verbose)及文件导出,便于 LLM 分析执行路径

get_sql_profile

能力:获取 SQL 执行概况(耗时、资源消耗等),支持超时控制(timeout),用于优化工作流

技术价值:形成 "执行计划分析→性能瓶颈定位→优化策略生成" 的闭环,降低人工调优成本

四、审计与日志服务

核心功能:提供操作审计与历史行为追溯

get_recent_audit_logs

能力:按时间范围(days)和记录数(limit)获取近期审计日志

应用场景:满足合规审计需求,追踪数据操作轨迹,支持安全事件溯源

五、存储管理服务

核心功能:监控表级存储状态,优化数据存储策略

get_table_data_size

能力:通过 FE HTTP API 获取表数据大小,支持单副本大小计算(single_replica

数据价值:辅助冷热数据分层、存储成本优化,识别冗余数据表

六、系统监控服务(Doris 专属)

核心功能:针对 Doris 数据库的节点级、集群级监控指标采集

监控指标定义

get_monitoring_metrics_info:获取监控指标定义及描述(支持按角role、类monitor_type、优先priority过滤)

实时指标数据

get_monitoring_metrics_data:获取节点实际监控数据,支持动态发现 BE 节点

内存监控

get_realtime_memory_stats:通过 BE Memory Tracker 获取实时内存统计(支持自动 / 手动节点发现)

get_historical_memory_stats:通过 BE Bvar 接口获取历史内存数据(支持多追踪tracker_names及时间范time_range

技术优势:实现从指标定义到实时 / 历史数据的全链路监控,支撑集群资源调度决策

具体参考链接:https://github.com/apache/doris-mcp-server



02

HelloDB 插件:自然语言生成 SQL 查询的数据库工具



这里是使用dify 拖动的一个使用helloDB 配置的数据分析助手,核心组件就是helloDB,这个流程基本流程是开始->获取系统时间,作为变量后面问题可能会使用到->基于问题使用大模型进行重写->讲问题发送给helloDB 组件处理,返回数据->范围的数据是一个json,通过模版解析后出来后给到大模型进行解读和分析。然后把大模型输出的内容输出到助手中。
HelloDB 是一个支持自然语言生成 SQL 查询的数据库管理工具 / 后端解决方案,主要面向开发者和非技术用户,它主要的功能是连接数据库,存储查询的训练数据,并实现大模型的微调后,通过自然语言产生查询语句,并发送给数据库查询数据后返回,界面配置如下,它提供的方式是API访问。
由于这个是共有云服务,如果设计敏感数据,需要私有化部署,则需要联系作者进行私有化部署。它其实的功能类似raglfow的如下功能的封装:

1、 核心功能:自然语言转 SQL

自动生成 SQL:用户可通过自然语言提问(如 “Which customers are in Chengdu?”),系统自动生成对应的 SQL 语句(如SELECT * FROM customers WHERE city='Chengdu';),降低数据库操作门槛。

支持多语言:覆盖 20 种语言(如中文、英文、日文等),适配国际化需求。

2、应用场景

快速开发:开发者通过 SDK 和模板快速连接数据库,无需复杂配置。

非技术用户:通过自然语言查询功能,业务人员可直接操作数据库,减少对 SQL 的依赖(文档中的示例)。

跨平台项目:尤其适合 Unity 游戏或移动应用,集成实时数据同步和用户系统。


03

Database 插件:低代码驱动的全场景数据库交互工具


Database 插件提供可视化配置界面,支持通过拖拉拽方式连接 MySQL、PostgreSQL、SQLite 等数据库,内置 Text2SQL 功能,可将自然语言查询自动转换为 SQL 语句,降低技术门槛。支持实时执行 SQL 查询、事务管理及结果可视化,无缝集成 ECharts 等工具生成图表,满足数据分析与业务展示需求。

核心操作

1、配置插件的数据库链接

在插件管理界面添加数据库实例,填写连接字符串(如mysql+pymysql://user:password@localhost:3306/dbname),支持加密传输与连接池配置,保障高并发场景稳定性。对于含特殊字符的密码,需使用 URL 编码或平台提供的安全密钥存储功能。

2、在工作流引入 text to sql 和 sql execute 工具进行配置

text to sql 则会依据问题和提供的表,利用大模型写出sql语句。它这里就没有参考语句,这里直接是当前生成语句能够使用的表作为大模型的输入的上下文参考。


sql execute组件则会把生成的语句给到数据执行。这个案例测试的结果如下,可以返回数据的解析。


选型建议与最佳实践

场景匹配策略

企业级复杂场景:优先选择 Doris MCP 服务,利用标准化协议实现多源整合与动态扩展。

线上共有云低代码快速开发:HelloDB 插件凭借 ODBC 通用性,成为中小规模数据智能分析的首选。

低代码快速开发:Database 插件适合业务人员自助式查询与可视化分析。

通过灵活组合三种连接方式,开发者可在 Dify 平台快速构建从数据接入到智能处理的完整闭环,充分释放数据价值,赋能 AI 应用高效落地。


整体体验dify 可以通过简单的拖拽实现一些企业级简单应用场景,复杂的场景还是需要后端通过API实现相关的开发,dify本质上是减少了部分后端开发服务的功能。但是由于是可视化,可以快速提高大家对大模型应用开发的认知和速度,所以得到很多人的青睐。


欢迎加入免费【数据&AIGC交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用



Ruby数据漫谈

知识星球介绍

在这个数据驱动的时代,您是否渴望成为大数据技术的领航者?是否希望掌握AIGC的前沿应用?是否在寻找数字化转型的秘籍?【数据星河】知识星球,是您理想的知识家园!

往期数据平台历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式

一图展示数据中台的数据流图

揭秘数据治理系统的数据流程图

往期AIGC历史热门文章:

AIGC系列之一-一文理解什么是Embedding嵌入技术

十大AIGC文生视频产品介绍

九大最热门的开源AI Agent框架

AutoGen零代码构建⾃⼰的智能助理

往期数据资产入表历史热门文章:

资产入表

数据资产入表流程

数据资产管理及入表的关键步骤


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询