免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Aiops探索:用Dify做一个基于LLM的ChatOps,从此我们的运维工作变得超级轻松

发布日期:2025-12-14 10:49:18 浏览次数: 1521
作者:阿铭linux

微信搜一搜,关注“阿铭linux”

推荐语

用Dify打造智能运维助手,让繁琐的运维工作一键搞定,效率提升看得见!

核心内容:
1. ChatOps如何通过智能聊天机器人简化运维工作
2. 使用Dify和Deepseek模型构建高效运维助手的关键要素
3. 运维操作中的安全约束与最佳实践

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
↑ 点击关注,分享IT技术|职场晋升技巧|AI工具

研究Aiops有一段时间了,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。同时,欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

我认为现阶段做Aiops最正确的路径就是去做ChatOps工具,简单说就是做一个智能聊天机器人,我们通过打字或者发语音指令,然后它帮我们完成之前手动完成的运维工作。

我们完全可以将这个机器人当成是我们的私人助理,我们只需给它提需求、下命令,具体的执行操作它来做,我们只关注最终的结果。

如果你是一个运维人员,请统计一下,一天当中有多少工作是可以交给这样的智能聊天机器人完成的?如果总时间超过2-4小时,那么你就非常有必要做一个ChatOps了!

注意,今天这篇文章我只讲观点和思路,不涉及实操。因为我之前的公众号文章里已经多次给大家呈现过此类案例:dify + Kubernetes MCP Server 的智能运维实践" data-itemshowtype="0" linktype="text" data-linktype="2">Aiops探索:基于 Dify + Kubernetes MCP Server 的智能运维实践、Aiops探索:基于 Dify + Ansible MCP Server 的智能运维实践Aiops探索:用Dify+Jumpserver的MCP实现通过自然语言来管理你的堡垒机Aiops探索:基于 Dify + Prometheus MCP 的运维智能体实践Aiops探索:基于 Dify + MySQL MCP 的运维智能体实践

目前Dify的Agent模式做这种智能助理非常优秀,无论是落地难易度还是效果表现都能接受!而落地这类Agent最大的难点在于能不能找到合适的MCP以及能否写成合适的、严谨的、安全的prompt。

当然,选择顶尖的LLM也非常有必要,经测试发现调用公共的DeepSeek模型API是我用过所有模型(国内模型,国外的不考虑)里面表现最好的,如果不涉及敏感数据泄露,强烈建议使用公共的Deepseek大模型。

但,如果你的环境必须要使用私有部署的模型,那么尽可能选择参数较大的模型(不低于32B),另外增加一个RAG用来提升运维操作精度也非常有必要。

在Prompt设计方面,一定要做好约束,对于那种不可逆操作(比如,rm -rf /)一定要做严格限制,这里我给大家提供一个关于kubernetes的操作限制示例:

========================【严格的安全规则】========================你必须始终遵守以下规则:
【允许直接执行的操作】- 查询类操作(list / get / describe / logs / events / metrics)- 分析类操作(基于查询结果进行原因分析和建议)
【高风险操作(必须二次确认)】以下操作在执行前,必须明确告知风险并等待用户确认:- 扩容或缩容 Deployment / StatefulSet- 重启 Deployment / Pod- 滚动更新(rollout restart)- 修改资源规格(CPU / Memory)
在高风险操作前,你必须:1. 明确操作对象(资源类型 + 名称)2. 明确 namespace3. 说明操作影响4. 请求用户确认(yes / no)
【禁止执行的操作】- 删除 namespace- 删除 PV / PVC- 未经确认的批量操作- 操作不明确或超出授权范围的请求- 任何你无法完全理解的操作
========================【权限与边界】========================- 你只能操作用户上下文中明确授权的 namespace- 如果用户请求的资源不在授权范围内,必须拒绝并说明原因- 不允许假设资源存在,必须通过查询确认
========================【行为约束】========================- 不允许编造 Kubernetes 状态- 不允许“猜测”资源配置- 不允许跳过确认流程- 不允许将多个高风险操作合并为一次执行- 不允许直接输出 kubectl 命令作为执行结果
========================【内部决策流程(必须遵循)】========================在执行任何操作前,你必须在心中完成以下步骤:1. 用户的请求属于哪一类?(查询 / 分析 / 变更)2. 我是否已经掌握了足够的事实?3. 是否涉及高风险操作?4. 是否需要用户确认?5. 是否存在权限或安全问题?
========================【响应规范】========================- 查询结果:使用列表或结构化描述- 分析结果:按「现象 → 证据 → 结论 → 建议」输出- 高风险操作:必须先解释,再请求确认- 所有回复必须清晰、克制、专业
你必须始终表现得像一个经验丰富、谨慎可靠的 SRE。

因为有了大模型的助力,Aiops离我们越来越近了,我坚信总有一天AI完全可以彻底解放运维的双手!这意味着,那时候运维这个职业将会成为历史!


最后介绍下我的大模型课:我的运维大模型课上线了,目前还在预售期,有很大优惠。AI越来越成熟了,大模型技术需求量也越来越多了,至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大,而且一点都不卷!

扫码咨询优惠(粉丝折扣大)

··············  END  ··············
哈喽,我是阿铭,《跟阿铭学Linux》作者,曾就职于腾讯,有着18年的IT从业经验,现全职做IT类职业培训:运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关,欢迎围观。
         

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询