微信扫码
添加专属顾问
我要投稿
探索AIOps新思路:基于Coze的自动化运维智能体如何用自然语言指令完成服务器巡检? 核心内容: 1. 智能体工作原理:从自然语言指令解析到自动化执行的全流程 2. Coze平台实现方案:插件开发与工作流配置的关键技术点 3. 实际应用场景:以业务集群巡检为例的完整落地示范
最近一直在探索和研究智能运维平台的可落地方案,说实话难度很大,因为很多细节在当前的技术背景下落地难度还是有点大。我们不妨曲线救国,与其做平台要考虑各种复杂场景,不如先实现和落地某一项功能模块。所以,当前我研究的方向为自动化运维智能体!
目标:给智能体下达人类通用语言指令,然后智能体会自动去落地执行,比如,我想对某台或者某一组服务器做巡检,只需要对智能体下达指令“对xxx业务进行一次巡检,请把巡检结果发给我”,智能体会自动通过自动化运维插件对该业务对应的服务器进行巡检,巡检完后会自动汇总整理结果展示给用户。
一、工作原理
1、用户输入:用户用自然语言下达指令(如:“对订单业务集群进行一次健康巡检,结果整理成报告发到我的邮箱”)。
2、意图理解(大脑):Coze平台的大型语言模型(如GPT-4)会解析用户的指令,识别出:
意图:服务器巡检
目标对象:订单业务集群
(对应哪几台服务器或Kubernetes服务)
参数:巡检项(CPU、内存、磁盘、日志错误等)、输出形式(报告)、发送方式(邮箱)
3、指令分发与执行(手脚):LLM根据识别出的意图,自动调用您预先配置好的插件或工作流。
4、插件会去调用已有的运维工具API(如Ansible, SaltStack, Prometheus, Zabbix, 或内部自研系统)。
5、数据收集与整理:插件执行后,会返回原始的、可能很分散的数据(如JSON格式的监控数据)。
6、结果生成与回复:LLM再次发挥作用,充当“分析师”和“文秘”的角色,将插件返回的原始数据总结、归纳、翻译成人类易懂的自然语言报告,并最终呈现给用户。
二、在Coze上落地
要在Coze上构建这个智能体,您需要配置以下几个核心模块:
1、插件
这是智能体的“手脚”,是与外部运维系统对接的关键。需要开发自定义插件,Coze平台允许我们编写HTTP API插件来连接任何系统。
比如,我们可以开发如下插件:
CMDB查询插件:用于将用户说的“订单业务集群”翻译成具体的服务器IP列表。
巡检执行插件:调用Ansible API或SaltStack API,在目标服务器上执行巡检脚本。
监控数据查询插件:调用Prometheus/Grafana或Zabbix的API,获取过去一段时间内的CPU、内存、磁盘、应用指标等数据。
邮件发送插件:用于将最终报告发送到用户邮箱。
如上插件仅仅是给大家举例,你可以根据自己的实际需求场景来开发合适的插件。
2、工作流(可选但推荐)
对于复杂的任务(比如,巡检),可以创建一个工作流来定义标准化步骤。
步骤1:调用CMDB插件,解析业务名称。
步骤2:调用Prometheus插件,获取指标数据。
步骤3:调用日志查询插件,检索关键错误日志。
步骤4:将所有结果汇总,交给LLM生成报告。
步骤5:调用邮件插件发送报告。
工作流可以让整个过程更可视化、更易于维护。
3、知识库(增强能力)
这就需要我们上传公司内部的运维文档、巡检标准手册等,让智能体在生成报告时更能符合内部的规范和标准,回答也更准确。如果涉及数据私密性,需要做数据的脱敏,也可以部署Coze到内网。
4、预设提示词
这是智能体的“人格和核心指令”,非常重要。这个模块通常会耗费大量精力,因为提示词需要精心设计,示例提示词如下:
你是一个专业的运维专家助手。你的核心职责是:理解用户的运维指令,并自动调用工具插件执行任务。当用户要求进行巡检时,你必须:1. 明确询问或推断出巡检的目标(业务名、主机IP等)。2. 调用相应的巡检插件。3. 将插件返回的原始数据,分析整理成一份结构清晰、重点突出的中文巡检报告。4. 报告应包括概述、详细发现(正常项和异常项)、以及初步建议。5. 如果发现严重异常,应立即提醒用户。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-06-15
2025-07-29
2025-08-19
2025-09-08
2025-09-07
2025-09-06
2025-09-03
2025-09-03
2025-09-03
2025-09-03
2025-09-02