我要投稿

AIOps探索：我基于Coze设计了一款自动化运维智能体

发布日期：2025-09-08 10:04:47 浏览次数： 2215

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

最近一直在探索和研究智能运维平台的可落地方案，说实话难度很大，因为很多细节在当前的技术背景下落地难度还是有点大。我们不妨曲线救国，与其做平台要考虑各种复杂场景，不如先实现和落地某一项功能模块。所以，当前我研究的方向为自动化运维智能体！

目标：给智能体下达人类通用语言指令，然后智能体会自动去落地执行，比如，我想对某台或者某一组服务器做巡检，只需要对智能体下达指令“对xxx业务进行一次巡检，请把巡检结果发给我”，智能体会自动通过自动化运维插件对该业务对应的服务器进行巡检，巡检完后会自动汇总整理结果展示给用户。

一、工作原理

1、用户输入：用户用自然语言下达指令（如：“对订单业务集群进行一次健康巡检，结果整理成报告发到我的邮箱”）。

2、意图理解（大脑）：Coze平台的大型语言模型（如GPT-4）会解析用户的指令，识别出：

意图：服务器巡检
目标对象：订单业务集群（对应哪几台服务器或Kubernetes服务）
参数：巡检项（CPU、内存、磁盘、日志错误等）、输出形式（报告）、发送方式（邮箱）

3、指令分发与执行（手脚）：LLM根据识别出的意图，自动调用您预先配置好的插件或工作流。

4、插件会去调用已有的运维工具API（如Ansible, SaltStack, Prometheus, Zabbix, 或内部自研系统）。

5、数据收集与整理：插件执行后，会返回原始的、可能很分散的数据（如JSON格式的监控数据）。

6、结果生成与回复：LLM再次发挥作用，充当“分析师”和“文秘”的角色，将插件返回的原始数据总结、归纳、翻译成人类易懂的自然语言报告，并最终呈现给用户。

二、在Coze上落地

要在Coze上构建这个智能体，您需要配置以下几个核心模块：

1、插件

这是智能体的“手脚”，是与外部运维系统对接的关键。需要开发自定义插件，Coze平台允许我们编写HTTP API插件来连接任何系统。

比如，我们可以开发如下插件：

CMDB查询插件：用于将用户说的“订单业务集群”翻译成具体的服务器IP列表。
巡检执行插件：调用Ansible API或SaltStack API，在目标服务器上执行巡检脚本。
监控数据查询插件：调用Prometheus/Grafana或Zabbix的API，获取过去一段时间内的CPU、内存、磁盘、应用指标等数据。
邮件发送插件：用于将最终报告发送到用户邮箱。

如上插件仅仅是给大家举例，你可以根据自己的实际需求场景来开发合适的插件。

2、工作流（可选但推荐）

对于复杂的任务（比如，巡检），可以创建一个工作流来定义标准化步骤。

步骤1：调用CMDB插件，解析业务名称。
步骤2：调用Prometheus插件，获取指标数据。
步骤3：调用日志查询插件，检索关键错误日志。
步骤4：将所有结果汇总，交给LLM生成报告。
步骤5：调用邮件插件发送报告。

工作流可以让整个过程更可视化、更易于维护。

3、知识库（增强能力）

这就需要我们上传公司内部的运维文档、巡检标准手册等，让智能体在生成报告时更能符合内部的规范和标准，回答也更准确。如果涉及数据私密性，需要做数据的脱敏，也可以部署Coze到内网。

4、预设提示词

这是智能体的“人格和核心指令”，非常重要。这个模块通常会耗费大量精力，因为提示词需要精心设计，示例提示词如下：

你是一个专业的运维专家助手。你的核心职责是:理解用户的运维指令，并自动调用工具插件执行任务。当用户要求进行巡检时，你必须：1. 明确询问或推断出巡检的目标（业务名、主机IP等）。2. 调用相应的巡检插件。3. 将插件返回的原始数据，分析整理成一份结构清晰、重点突出的中文巡检报告。4. 报告应包括概述、详细发现（正常项和异常项）、以及初步建议。5. 如果发现严重异常，应立即提醒用户。