免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

从0到1搭好你的运维技能库:分享20个ClawHub20个Skills

发布日期:2026-02-24 15:44:01 浏览次数: 1545
作者:阿铭linux

微信搜一搜,关注“阿铭linux”

推荐语

从0到1搭建运维技能库,20个ClawHub核心Skills助你快速提升AIOps实战能力!

核心内容:
1. Kubernetes全流程运维方案与故障处理技巧
2. 基础设施即代码工具Terraform的工程化实践
3. DevOps全链路CI/CD流程优化与可观测体系搭建

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
↑ 点击关注,分享IT技术|职场晋升技巧|AI工具

研究AIOps已有数月,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。最近OpenClaw太火了,作为AIOps领域先行者,我也在探索OpenClaw如何用于AIOps领域。

这两天我把ClawHub里和运维相关的Skills做了一轮系统梳理。目前整理了20个和运维强相关的Skills,我把这份清单分享给你。

1. kubernetes

  • 作用:覆盖 K8s 日常运维全流程(部署、排障、扩缩容、网络/存储基础问题)。

  • 用法:先让它收集上下文:命名空间、异常 Pod、事件、节点状态。再让它按优先级输出:先恢复服务,再做根因。最后要求它给“可复制命令 + 回滚方案”。

  • 场景:生产 Pod CrashLoopBackOff、节点 NotReady、发布后 5xx 飙升。

2. k8s

  • 作用:更偏通用操作助手,快速生成/修正 kubectl 与常见 YAML。

  • 用法:输入目标(如“给我一个带探针和资源限制的 Deployment”)。让它同时输出检查命令与验证步骤。

  • 场景:新服务上集群、日常巡检脚本、YAML 快速生成。

3. kube-medic

  • 作用:K8s “医生”型排障,偏故障定位与健康体检。

  • 用法:提供症状(慢、重启、拉镜像失败、连接超时)。让它做“体检报告”:症状→怀疑点→验证命令→修复动作。

  • 场景:跨团队值班时快速缩小故障面。

4. ansible

  • 作用:主机配置与批量变更自动化,强调幂等和可重复执行。

  • 用法:让它先生成 inventory + playbook 骨架。再要求加入 check mode、handlers、回滚思路。

  • 场景:批量装 Agent、统一 sysctl、发布基础组件。

5. terraform

  • 作用:基础设施即代码,统一管理云资源生命周期。

  • 用法:输入目标架构(VPC/子网/安全组/实例/数据库)。要求输出模块化结构、plan 风险点、状态管理建议。

  • 场景:新环境搭建、资源标准化、跨环境复制。

6. terraform-engineer

  • 作用:在 Terraform 基础上更强调工程化(模块拆分、规范、审查)。

  • 用法:让它按团队规范输出:目录结构、变量命名、工作区策略。要求附“常见反模式清单”。

  • 场景:多人协作的 IaC 仓库治理。

7. devops

  • 作用:把开发-测试-发布-回滚流程串起来,偏 CI/CD。

  • 用法:输入现状(比如“只有手工发布”)。让它给分阶段改造:先可用、再稳定、最后提效。

  • 场景:从脚本发布升级到流水线发布。

8. logging-observability

  • 作用:日志、指标、追踪的可观测体系落地。

  • 用法:让它按“黄金信号”设计监控面板和告警阈值。要求产出采集链路与字段规范。

  • 场景:故障定位慢、告警噪音大、跨服务追踪困难。

9. monitoring

  • 作用:通用监控方案设计与告警分级。

  • 用法:给业务 SLO(可用性、延迟、错误率)。让它输出监控项矩阵:系统层/应用层/业务层。

  • 场景:从“有监控”升级到“监控有效”。

10. prometheus

  • 作用:Prometheus 指标采集、规则配置、告警治理。

  • 用法:提需求(抓哪些目标、保留多久、告警如何分级)。让它生成 scrape_configs 与告警规则样例。

  • 场景:K8s/主机统一指标平台建设。

11. database-operations

  • 作用:数据库变更、备份、恢复、巡检等运维流程化。

  • 用法:输入数据库类型和风险级别。让它给“变更前检查→执行→验证→回退”SOP。

  • 场景:DDL 变更、慢查询治理、容量告警处理。

12. mysql

  • 作用:MySQL 专项(参数、索引、慢 SQL、复制、备份恢复)。

  • 用法:先描述症状(CPU高、锁等待、主从延迟)。让它给“先止血后优化”的分步动作。

  • 场景:业务高峰抖动、慢 SQL 突增。

13. pg

  • 作用:PostgreSQL 专项运维与性能诊断。

  • 用法:提供版本、负载模式、慢 SQL 样本。让它输出索引/执行计划/参数优化建议。

  • 场景:报表查询变慢、连接数耗尽、vacuum 问题。

14. redis-store

  • 作用:Redis 运维(内存、淘汰策略、持久化、主从/哨兵)。

  • 用法:输入“命中率低/延迟高/内存涨”。让它分“数据模型问题 vs 参数问题”两路分析。

  • 场景:缓存击穿、热点 key、延迟抖动。

15. storage

  • 作用:通用存储规划与运维建议(容量、IO、可靠性)。

  • 用法:给工作负载画像(随机读写、吞吐、延迟要求)。让它给存储选型与性能基线。

  • 场景:应用上云前存储架构评审。

16. cloud-storage

  • 作用:对象/块/文件存储在云上的使用与治理。

  • 用法:输入目标(备份归档/静态资源/日志冷存)。让它给分层存储与成本优化方案。

  • 场景:备份上云、冷热分层、跨区容灾。

17. k8s-backup

  • 作用:K8s 资源与数据备份恢复策略(含灾备演练思路)。

  • 用法:指定 RPO/RTO 目标。让它输出备份频率、恢复演练、校验步骤。

  • 场景:关键命名空间容灾、集群迁移前兜底。

18. k8-autoscaling

  • 作用:K8s 弹性伸缩策略(HPA/VPA/Cluster Autoscaler 思路)。

  • 用法:提供流量波峰波谷与资源成本目标。让它给“稳定优先/成本优先”两套参数建议。

  • 场景:流量波动大、人工扩缩容跟不上。

19. openclaw-backup

  • 作用:OpenClaw 相关配置与数据备份。

  • 用法:让它先盘点“必须备份项”(配置、记忆、技能目录等)。再输出定时备份+恢复演练流程。

  • 场景:升级前兜底、主机迁移、误删恢复。

20. cloud-devops

  • 作用:云上 DevOps 实践(流水线+云资源协同)。

  • 用法:输入云厂商与现有工具链。让它设计“构建-发布-回滚-审计”闭环。

  • 场景:多环境发布、跨团队协作、审计合规。


最后介绍下我的大模型课:我的运维大模型课上线了,目前还在预售期,有很大优惠。AI越来越成熟了,大模型技术需求量也越来越多了,至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大,而且一点都不卷!

扫码咨询优惠(粉丝优惠力度大)

图片
加好友送你一份n8n入门教程
··············  END  ··············
哈喽,我是阿铭,《跟阿铭学Linux》作者,曾就职于腾讯,有着18年的IT从业经验,现全职做IT类职业培训:运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关,欢迎围观。
       

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询