微信扫码
添加专属顾问
我要投稿
从0到1搭建运维技能库,20个ClawHub核心Skills助你快速提升AIOps实战能力!核心内容: 1. Kubernetes全流程运维方案与故障处理技巧 2. 基础设施即代码工具Terraform的工程化实践 3. DevOps全链路CI/CD流程优化与可观测体系搭建
研究AIOps已有数月,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。最近OpenClaw太火了,作为AIOps领域先行者,我也在探索OpenClaw如何用于AIOps领域。
这两天我把ClawHub里和运维相关的Skills做了一轮系统梳理。目前整理了20个和运维强相关的Skills,我把这份清单分享给你。
1. kubernetes
作用:覆盖 K8s 日常运维全流程(部署、排障、扩缩容、网络/存储基础问题)。
用法:先让它收集上下文:命名空间、异常 Pod、事件、节点状态。再让它按优先级输出:先恢复服务,再做根因。最后要求它给“可复制命令 + 回滚方案”。
场景:生产 Pod CrashLoopBackOff、节点 NotReady、发布后 5xx 飙升。
2. k8s
作用:更偏通用操作助手,快速生成/修正 kubectl 与常见 YAML。
用法:输入目标(如“给我一个带探针和资源限制的 Deployment”)。让它同时输出检查命令与验证步骤。
场景:新服务上集群、日常巡检脚本、YAML 快速生成。
3. kube-medic
作用:K8s “医生”型排障,偏故障定位与健康体检。
用法:提供症状(慢、重启、拉镜像失败、连接超时)。让它做“体检报告”:症状→怀疑点→验证命令→修复动作。
场景:跨团队值班时快速缩小故障面。
4. ansible
作用:主机配置与批量变更自动化,强调幂等和可重复执行。
用法:让它先生成 inventory + playbook 骨架。再要求加入 check mode、handlers、回滚思路。
场景:批量装 Agent、统一 sysctl、发布基础组件。
5. terraform
作用:基础设施即代码,统一管理云资源生命周期。
用法:输入目标架构(VPC/子网/安全组/实例/数据库)。要求输出模块化结构、plan 风险点、状态管理建议。
场景:新环境搭建、资源标准化、跨环境复制。
6. terraform-engineer
作用:在 Terraform 基础上更强调工程化(模块拆分、规范、审查)。
用法:让它按团队规范输出:目录结构、变量命名、工作区策略。要求附“常见反模式清单”。
场景:多人协作的 IaC 仓库治理。
7. devops
作用:把开发-测试-发布-回滚流程串起来,偏 CI/CD。
用法:输入现状(比如“只有手工发布”)。让它给分阶段改造:先可用、再稳定、最后提效。
场景:从脚本发布升级到流水线发布。
8. logging-observability
作用:日志、指标、追踪的可观测体系落地。
用法:让它按“黄金信号”设计监控面板和告警阈值。要求产出采集链路与字段规范。
场景:故障定位慢、告警噪音大、跨服务追踪困难。
9. monitoring
作用:通用监控方案设计与告警分级。
用法:给业务 SLO(可用性、延迟、错误率)。让它输出监控项矩阵:系统层/应用层/业务层。
场景:从“有监控”升级到“监控有效”。
10. prometheus
作用:Prometheus 指标采集、规则配置、告警治理。
用法:提需求(抓哪些目标、保留多久、告警如何分级)。让它生成 scrape_configs 与告警规则样例。
场景:K8s/主机统一指标平台建设。
11. database-operations
作用:数据库变更、备份、恢复、巡检等运维流程化。
用法:输入数据库类型和风险级别。让它给“变更前检查→执行→验证→回退”SOP。
场景:DDL 变更、慢查询治理、容量告警处理。
12. mysql
作用:MySQL 专项(参数、索引、慢 SQL、复制、备份恢复)。
用法:先描述症状(CPU高、锁等待、主从延迟)。让它给“先止血后优化”的分步动作。
场景:业务高峰抖动、慢 SQL 突增。
13. pg
作用:PostgreSQL 专项运维与性能诊断。
用法:提供版本、负载模式、慢 SQL 样本。让它输出索引/执行计划/参数优化建议。
场景:报表查询变慢、连接数耗尽、vacuum 问题。
14. redis-store
作用:Redis 运维(内存、淘汰策略、持久化、主从/哨兵)。
用法:输入“命中率低/延迟高/内存涨”。让它分“数据模型问题 vs 参数问题”两路分析。
场景:缓存击穿、热点 key、延迟抖动。
15. storage
作用:通用存储规划与运维建议(容量、IO、可靠性)。
用法:给工作负载画像(随机读写、吞吐、延迟要求)。让它给存储选型与性能基线。
场景:应用上云前存储架构评审。
16. cloud-storage
作用:对象/块/文件存储在云上的使用与治理。
用法:输入目标(备份归档/静态资源/日志冷存)。让它给分层存储与成本优化方案。
场景:备份上云、冷热分层、跨区容灾。
17. k8s-backup
作用:K8s 资源与数据备份恢复策略(含灾备演练思路)。
用法:指定 RPO/RTO 目标。让它输出备份频率、恢复演练、校验步骤。
场景:关键命名空间容灾、集群迁移前兜底。
18. k8-autoscaling
作用:K8s 弹性伸缩策略(HPA/VPA/Cluster Autoscaler 思路)。
用法:提供流量波峰波谷与资源成本目标。让它给“稳定优先/成本优先”两套参数建议。
场景:流量波动大、人工扩缩容跟不上。
19. openclaw-backup
作用:OpenClaw 相关配置与数据备份。
用法:让它先盘点“必须备份项”(配置、记忆、技能目录等)。再输出定时备份+恢复演练流程。
场景:升级前兜底、主机迁移、误删恢复。
20. cloud-devops
作用:云上 DevOps 实践(流水线+云资源协同)。
用法:输入云厂商与现有工具链。让它设计“构建-发布-回滚-审计”闭环。
场景:多环境发布、跨团队协作、审计合规。
最后介绍下我的大模型课:我的运维大模型课上线了,目前还在预售期,有很大优惠。AI越来越成熟了,大模型技术需求量也越来越多了,至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大,而且一点都不卷!扫码咨询优惠(粉丝优惠力度大)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-12
几句话就能复刻一个付费Skill,Skills商店还能卖什么?
2026-02-10
Skill 用得越多,越是心凉
2026-02-08
从 Prompt 到 Skills:如何把业务流程切开,塞进AI的“技能槽”里?
2026-02-06
从入门到Agent大神:31个Claude Code技巧,让你的开发效率起飞
2026-02-05
当AI能替你干活,什么能力决定你不可替代?
2026-02-03
Claude Code 创始人亲授:10 条进阶秘籍(附 12 条工作流 Prompt 清单)
2026-01-31
全网首发!一张通往“人类禁区”的船票,手把手教你把 AI 送进 Moltbook
2026-01-30
ESLint创始人揭秘:用AI角色扮演编程,效率飙升
2025-12-03
2025-12-26
2025-12-17
2026-01-18
2026-01-04
2026-01-07
2025-11-27
2025-11-30
2026-01-30
2025-12-02
2026-02-12
2026-02-08
2026-02-05
2026-01-21
2026-01-16
2026-01-13
2026-01-05
2025-12-22