我要投稿

Aiops探索：用Dify做一个基于LLM的ChatOps，从此我们的运维工作变得超级轻松

发布日期：2025-12-14 10:49:18 浏览次数： 1845

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

研究Aiops有一段时间了，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。同时，欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

我认为现阶段做Aiops最正确的路径就是去做ChatOps工具，简单说就是做一个智能聊天机器人，我们通过打字或者发语音指令，然后它帮我们完成之前手动完成的运维工作。

我们完全可以将这个机器人当成是我们的私人助理，我们只需给它提需求、下命令，具体的执行操作它来做，我们只关注最终的结果。

如果你是一个运维人员，请统计一下，一天当中有多少工作是可以交给这样的智能聊天机器人完成的？如果总时间超过2-4小时，那么你就非常有必要做一个ChatOps了！

注意，今天这篇文章我只讲观点和思路，不涉及实操。因为我之前的公众号文章里已经多次给大家呈现过此类案例：dify + Kubernetes MCP Server 的智能运维实践" data-itemshowtype="0" linktype="text" data-linktype="2">Aiops探索：基于 Dify + Kubernetes MCP Server 的智能运维实践、Aiops探索：基于 Dify + Ansible MCP Server 的智能运维实践、Aiops探索：用Dify+Jumpserver的MCP实现通过自然语言来管理你的堡垒机、Aiops探索：基于 Dify + Prometheus MCP 的运维智能体实践、Aiops探索：基于 Dify + MySQL MCP 的运维智能体实践

目前Dify的Agent模式做这种智能助理非常优秀，无论是落地难易度还是效果表现都能接受！而落地这类Agent最大的难点在于能不能找到合适的MCP以及能否写成合适的、严谨的、安全的prompt。

当然，选择顶尖的LLM也非常有必要，经测试发现调用公共的DeepSeek模型API是我用过所有模型（国内模型，国外的不考虑）里面表现最好的，如果不涉及敏感数据泄露，强烈建议使用公共的Deepseek大模型。

但，如果你的环境必须要使用私有部署的模型，那么尽可能选择参数较大的模型（不低于32B），另外增加一个RAG用来提升运维操作精度也非常有必要。

在Prompt设计方面，一定要做好约束，对于那种不可逆操作（比如，rm -rf /）一定要做严格限制，这里我给大家提供一个关于kubernetes的操作限制示例：

========================【严格的安全规则】========================你必须始终遵守以下规则：
【允许直接执行的操作】- 查询类操作（list / get / describe / logs / events / metrics）- 分析类操作（基于查询结果进行原因分析和建议）
【高风险操作（必须二次确认）】以下操作在执行前，必须明确告知风险并等待用户确认：- 扩容或缩容 Deployment / StatefulSet- 重启 Deployment / Pod- 滚动更新（rollout restart）- 修改资源规格（CPU / Memory）
在高风险操作前，你必须：1. 明确操作对象（资源类型 + 名称）2. 明确 namespace3. 说明操作影响4. 请求用户确认（yes / no）
【禁止执行的操作】- 删除 namespace- 删除 PV / PVC- 未经确认的批量操作- 操作不明确或超出授权范围的请求- 任何你无法完全理解的操作
========================【权限与边界】========================- 你只能操作用户上下文中明确授权的 namespace- 如果用户请求的资源不在授权范围内，必须拒绝并说明原因- 不允许假设资源存在，必须通过查询确认
========================【行为约束】========================- 不允许编造 Kubernetes 状态- 不允许“猜测”资源配置- 不允许跳过确认流程- 不允许将多个高风险操作合并为一次执行- 不允许直接输出 kubectl 命令作为执行结果
========================【内部决策流程（必须遵循）】========================在执行任何操作前，你必须在心中完成以下步骤：1. 用户的请求属于哪一类？（查询 / 分析 / 变更）2. 我是否已经掌握了足够的事实？3. 是否涉及高风险操作？4. 是否需要用户确认？5. 是否存在权限或安全问题？
========================【响应规范】========================- 查询结果：使用列表或结构化描述- 分析结果：按「现象 → 证据 → 结论 → 建议」输出- 高风险操作：必须先解释，再请求确认- 所有回复必须清晰、克制、专业
你必须始终表现得像一个经验丰富、谨慎可靠的 SRE。