微信扫码
添加专属顾问
我要投稿
AIops实战:基于Dify打造智能故障诊断系统,让运维更高效更智能。核心内容: 1. 智能故障诊断的核心思路与架构设计 2. 从告警感知到根因分析的完整流程解析 3. 基于Dify平台的实操部署指南与配置步骤
研究Aiops有一段时间了,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。同时,欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。
今天的案例是基于dify做一个专门用来做故障诊断和根因分析的智能体,目前我还没有正式验证,只是有一个大概的思路。等验证完,我会将该案例相关的实操文档和视频放到课程中。
1)感知:统一告警入口
2)上下文增强:不止看告警,更要看现场,自动调用外部系统获取关联信息:
3)推理:LLM 驱动的根因分析(RCA)
4)行动:自动响应 or 人工协同
阶段 1: 基础环境准备
假设已经有了如下环境:
1、部署Grafana MCP(用来查询Loki日志)
步骤略,以前的文章里有介绍过
2、部署k8s MCP(用来获取pod信息)
步骤略,以前的文章里有介绍过
3、部署CMDB MCP
这个需要根据自己使用的CMDB工具来开发合适的MCP工具,这里存在一些不确定性因素
阶段 3: 在 Dify 中配置 MCP 工具
参考以前的发文,将以上三个MCP添加到Dify的MCP工具中心
阶段4:Dify中配置智能体
alert_name |
||
namespace |
||
pod |
||
instance |
||
severity |
3、添加「工具调用」节点(增强上下文)
获取:重启次数、事件(Events)、挂载卷、镜像版本等。
设置提示词
你是一个资深 SRE,负责对 Kubernetes 故障进行根因分析。当前告警信息:- 告警名称:{{alert_name}}- 命名空间:{{namespace}}- Pod 名称:{{pod}}- 严重等级:{{severity}}相关上下文:1. 最近日志摘要(来自 Loki):{{log_summary}}2. Pod 事件与状态(来自 K8s API):{{pod_events}}3. 服务元数据(来自 CMDB):{{cmdb_info}}请执行以下任务:1. 判断是否为真实故障(排除误报)。2. 推测最可能的根因(如:镜像拉取失败、OOMKilled、配置错误、依赖服务不可用等)。3. 给出 1~3 条可执行的修复建议(如:kubectl delete pod、回滚 Helm release v1.2.3)。4. 是否需要通知值班工程师?请以严格 JSON 格式输出,字段如下:{"is_real_incident": true/false,"root_cause": "string","confidence_score": 0.0~1.0,"remediation_steps": ["step1", "step2"],"notify_oncall": true/false,"related_components": ["service-a", "redis-cluster"]}
5. 动作执行 & 通知
notify_oncall == true → 发送消息到 Slack/钉钉/Webhookremediation_steps 非空 → 调用 自动化平台 API(如自研运维平台)阶段5:对接Alertmanager
alertmanager.yml
route:receiver: aiops-Agentreceivers:- name: aiops-agentwebhook_configs:- url: 'http://dify-workflow-trigger-url' # 从 Dify Workflow 复制http_config:authorization:credentials: 'your-dify-api-key'type: Bearersend_resolved: true
- alert: PodCrashLoopBackOffexpr: kube_pod_status_reason{reason="CrashLoopBackOff"} == 1labels:severity: criticalnamespace: "{{ $labels.namespace }}"pod: "{{ $labels.pod }}"annotations:summary: "Pod {{ $labels.pod }} in {{ $labels.namespace }} is CrashLooping"
扫码咨询优惠(粉丝优惠力度大)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-21
Trigger 发布: 让 Dify Workflow 走向事件驱动
2025-11-20
Dify 自建部署完全指南:从上手到放弃到真香
2025-11-17
dify 1.10.0 Event-Driven Workflows 版本发布:全新 Trigger 触发器与升级指南详解
2025-11-16
Dify实战:Deepseek打造专属智能出题系统
2025-11-15
Dify应用开发指南:提示词工程VS上下文工程
2025-11-14
深夜:Dify 1.10.0事件驱动工作流程正式发布了
2025-11-11
关于智能体(AI Agent)搭建,Dify、n8n、Coze 超详细的总结!
2025-11-09
Dify版本选择秘诀:社区版与企业版功能差异详解
2025-09-03
2025-10-13
2025-09-16
2025-09-06
2025-09-02
2025-09-23
2025-09-04
2025-10-12
2025-11-09
2025-11-11
2025-09-30
2025-09-23
2025-09-06
2025-09-05
2025-08-29
2025-08-18
2025-08-02
2025-07-30