我要投稿

AIOps探索：基于OpenClaw的k8s AIOps落地思路

发布日期：2026-03-16 20:03:19 浏览次数： 2179

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

研究AIOps已有数月，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

最近OpenClaw太火了，作为AIOps领域先行者，我也在探索OpenClaw如何用于AIOps领域。用OpenClaw越久，我就越觉得我们之前很难搞定的问题，在它这里都可以轻松搞定。

今天这篇文章跟大家聊一下如何用OpenClaw来管理我们的k8s。先看简易架构图：

核心思路：

OpenClaw作为智能运维入口，通过Skill调用Kubernetes、Prometheus、日志系统等能力，实现智能运维。

一、Kubernetes集群接入OpenClaw

首先需要让OpenClaw能够访问Kubernetes。

通常有两种方式：

方式一：使用 kubeconfig

将Kubernetes集群内控制台机器上的~/.kube/目录直接同步到OpenClaw那台机器上，同时需要安装kubectl命令。

方式二：ServiceAccount 接入

创建专用账号：

apiVersion: v1kind: ServiceAccountmetadata:  name: openclaw  namespace: kube-system绑定权限：


kind: ClusterRoleBindingapiVersion: rbac.authorization.k8s.io/v1metadata:  name: openclaw-bindingsubjects:- kind: ServiceAccount  name: openclaw  namespace: kube-systemroleRef:  kind: ClusterRole  name: cluster-admin  apiGroup: rbac.authorization.k8s.ioOpenClaw 使用 token 访问 API。
让OpenClaw使用token访问 API。
二、安装或自建Kubernetes运维Skills
AIOps的关键能力来自Skills（运维相关技能）。
每个Skill实现一种运维能力。
例如：
Skill 作用
kubernetes 管理Kubernetes集群的skill，
通用能力
prometheus 管理Prometheus的skill
grafana-lens 用来查询loki里监控的日志
auto_inspect 自动巡检，自定义skill，
在openclaw封装
这里只列出几个有代表性的skills，后期可以
根据实际需求不断增加新的skills，其实用
OpenClaw做自定义skills还是蛮方便的。
三、告警触发
两种策略：
1）可以在OpenClaw这里设定一个每分钟去查询
有无告警的任务计划，这个比较方便，不用额外
配置其它东西，比如不需要更改现有
Prometheus + Alertmanager的配置，
但缺点就是耗费的Tokens会比较多。
2）在Alertmanager那里配置，告警触发一个
webhook，然后它会发通知给到openclaw。
altermanager配置示例：
global:resolve_timeout: 5mroute:receiver: "openclaw-webhook"group_by: ["alertname", "instance", "job"]group_wait: 30sgroup_interval: 5mrepeat_interval: 2hreceivers:- name: "openclaw-webhook"webhook_configs:- url: "https://your-relay.example.com/alertmanager/webhook"send_resolved: truemax_alerts: 0
这里的webhook其实就是一个小脚本：
from flask import Flask, request, jsonifyimport subprocessimport jsonapp = Flask(__name__)# 你自己的 Feishu 目标（示例：发给某个用户）# 也可以用 chat:chat_idFEISHU_TARGET = "user:ou_eabb1ecea220b9c5ff0d4db5e76ebb36"def send_to_openclaw(text: str):cmd = ["openclaw", "message", "send","--channel", "feishu","--target", FEISHU_TARGET,"--message", text]# 执行 openclaw CLI 发消息subprocess.run(cmd, check=True)@app.post("/alertmanager/webhook")def am_webhook():data = request.get_json(silent=True) or {}alerts = data.get("alerts", [])status = data.get("status", "unknown")# 简单拼一个摘要if alerts:a = alerts[0]labels = a.get("labels", {})summary = a.get("annotations", {}).get("summary", "无摘要")text = (f"[Alertmanager告警]\n"f"状态: {status}\n"f"告警名: {labels.get('alertname', 'unknown')}\n"f"实例: {labels.get('instance', 'unknown')}\n"f"级别: {labels.get('severity', 'unknown')}\n"f"摘要: {summary}\n"f"条数: {len(alerts)}")else:text = f"[Alertmanager告警] 收到空告警包: {json.dumps(data, ensure_ascii=False)[:300]}"try:send_to_openclaw(text)return jsonify({"ok": True}), 200except Exception as e:return jsonify({"ok": False, "error": str(e)}), 500if __name__ == "__main__":app.run(host="0.0.0.0", port=8000)
四、问题定位
故障定位必须自动化。
OpenClaw可以自动执行以下步骤：
1️⃣ 分析告警，获取目标资源
2️⃣ 查询Pod状态
3️⃣ 查询日志
4️⃣ 查询资源指标
5️⃣ 分析根因
这里需要定义一个比较详细的prompt，主要目的
是教OpenClaw如何分析这个问题：

Skill	作用
kubernetes	管理Kubernetes集群的skill，通用能力
prometheus	管理Prometheus的skill
grafana-lens	用来查询loki里监控的日志
auto_inspect	自动巡检，自定义skill，在openclaw封装

你是一名经验丰富的Kubernetes SRE和AIOps运维专家，你的任务是根据告警信息自动完成 Kubernetes 故障定位分析。在整个分析过程中，你必须按照标准的 AIOps 故障排查流程进行，并合理调用已有的 Skill 来获取信息。
可使用的 Skill 包括：1. kubernetes Skill用于查询Kubernetes资源状态，例如：- pod 状态- deployment- events- describe 信息
2. grafana-lens Skill用于查询Kubernetes各资源日志
3. prometheus Skill用于查询监控指标
你的目标是，最终输出：
1. 故障资源2. 故障现象3. 关键证据4. 根因分析5. 修复建议
-------------------------请严格按照以下步骤进行分析：Step 1：分析告警信息首先解析当前告警，获取以下信息：- 告警名称- 告警资源类型- 告警资源名称- namespace- 告警时间- 告警描述
重点判断：该告警是否关联具体 Kubernetes 资源，例如：
PodDeploymentNodeService
如果告警中包含 Pod 名称或 Deployment 名称，需要记录下来作为后续分析目标。-------------------------Step 2：确定故障资源根据告警信息，识别主要问题资源：例如：PodNodeDeployment如果告警指向 Deployment，需要进一步查询 Deployment 对应的 Pod。使用 Kubernetes Skill：查询相关资源：例如：get podsget deploymentget events目标是确定：哪个 Pod 正在出现问题。可能出现的问题包括：- CrashLoopBackOff- OOMKilled- ImagePullBackOff- Pending- ContainerCreating记录异常 Pod。-------------------------Step 3：查询 Pod 状态针对异常 Pod，调用 Kubernetes Skill：获取以下信息：describe podpod statusrestart countevents重点关注：- Restart 次数- OOMKilled- Liveness probe 失败- Readiness probe 失败- 调度失败- 拉取镜像失败- 挂载卷失败记录关键异常信息。-------------------------Step 4：查询Pod日志调用 Grafana-lens Skill 查询 Pod 日志。查询策略：- 查询最近 100 行日志- 查询 ERROR / Exception / Timeout 关键字- 查询应用启动日志重点分析：- 应用报错- 数据库连接失败- 网络连接错误- 配置错误- 依赖服务不可用提取关键错误日志。-------------------------Step 5：查询监控指标调用 Prometheus Skill 查询该 Pod / Node 的指标。重点查询：Pod 级指标：- CPU 使用率- Memory 使用率- OOM- Restart rateNode 级指标：- Node CPU- Node Memory- Disk pressureService 级指标：- request latency- error rate判断是否存在：- CPU 打满- 内存溢出- 资源争抢- 节点异常-------------------------Step 6：关联分析将以下信息进行关联：告警信息Pod 状态Pod 日志监控指标识别最可能的故障原因，例如：- 应用代码异常- 配置错误- 数据库不可用- 资源不足- 节点故障- 网络异常-------------------------Step 7：输出最终分析结果请输出结构化结果：【故障资源】例如：pod: payment-api-7f8d9【故障现象】例如：Pod 持续 CrashLoopBackOff【关键证据】例如：Pod Event:Back-off restarting failed container日志错误：connection refused to mysql指标异常：CPU 95%【根因分析】例如：应用无法连接数据库，导致启动失败。【修复建议】例如：1. 检查 mysql 服务是否正常2. 检查数据库连接配置3. 检查网络策略-------------------------重要原则：1. 必须先分析告警再进行查询2. 每一步查询都必须有明确目的3. 避免无意义的重复查询4. 最终必须给出根因分析5. 输出结构化结果

当然这个prompt并不一定适合你的场景，我们

可以先让openclaw跑一跑，看看有没有什么

缺陷，然后我们不断调整。这个流程跑顺后，

我们可以封装成一个问题定位的skill。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-01

OpenClaw 5月28日更新：更加提升稳定性

2026-05-31

Claw Team 在 SRE 场景下的实践

2026-05-29

OpenClaw与Hermes：源码里的 AI Agent 架构知识大复盘

2026-05-24

李想谈 AI：价值藏在生产环境里

2026-05-19

龙虾的 Skill 数量和描述的长度，真的不能随便写

2026-05-19

AI 开始做梦以后：/Dream、DMN 与必要难度

2026-05-18

给 OpenClaw 装上第二大脑：GBrain 开源，Agent 终于不再"失忆"了

2026-05-15

治理之智 | OpenClaw类自主智能体的分层治理（下）

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

微信官方接入龙虾，我顺手给接上了 Claude Code。已开源

2026-03-23

一文总结飞书新品发布会 - 向Agent平台的跃迁。

2026-03-19

我在企微里养了130个AI员工：OpenClaw+The Agency实战全记录

2026-03-21

微信原生支持各种 OpenClaw 龙虾接入，附教程

2026-03-22

我对比了12个"养虾"平台，发现OpenClaw才是真正的王者

2026-03-22

从 OpenClaw 到 Hermes Agent：安装、迁移、配置、实战演示

2026-04-09

OpenClaw+飞书官方插件多Agent 部署指南

2026-03-21

OpenClaw发布 2026.4.2 版本🦞

2026-04-03

万字详解：OpenClaw龙虾“高替” Hermes Agent的Skills系统

2026-04-15

OpenClaw 双版本连发：v2026.3.22 + v2026.3.23 合并更新指南

2026-03-24

大家都在问

被Anthropic封杀之后，OpenClaw如何反击？

2026-04-09

树莓派上 AI 代理框架有那么多，为什么 OpenClaw 火了起来？

2026-04-07

爆火的 OpenClaw 们：为什么企业宁愿围观，也不敢将其接入核心业务？

2026-04-02

Harness驾驭工程是AI平权的必经之路？

2026-03-30

OpenClaw v2026.3.28 发布：来看看有没有你中意的新特性？

2026-03-30

Harness 驾驭工程是 AI 平权的必经之路？

2026-03-26

Anthropic入局做“AI 龙虾”，真能杀死OpenClaw吗？

2026-03-24

全面抢购的Coding Plan，是饥饿营销还是真的火到爆炸？

2026-03-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw