AIOps探索：分享一套保障100%准确率的告警知识检索方案

发布日期：2026-04-08 08:09:19 浏览次数： 2068

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

研究AIOps已有数月，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

经常看我公众号的朋友应该知道，这段时间我整理了很多关于AIOps的一些感想，同时也了解到了不少企业或者团队遇到的问题。其中最为典型的问题就是关于告警以及根因分析。

可能对于小规模应用或者平台来说，问题很好解决，因为体量不大，系统复杂度也非常简单，问题就很容易定位。然而，大规模应用所产生的海量告警信息以及复杂的系统架构要想做问题定位是非常难的！这个也是我们不得不做AIOps的一个根本原因。

今天这篇文章给大家提供一个解决海量告警问题的新思路 —— 利用静态DAG赋能多模态问答。

- 什么是DAG -

DAG是“Directed Acyclic Graph”的简称，中文叫“有向无环图”。

可以拆成三部分理解：

有向（Directed）：图里的连线有方向，表示“先后”或“依赖”关系，比如 A → B 意味着“做完 A，才能做 B”。
无环（Acyclic）：不会出现绕一圈又回到原点的情况，比如不会有 A → B → C → A 这种“自己依赖自己”的闭环。
图（Graph）：就是用“点”和“线”来表示事物及其关系。DAG 的点通常表示任务、步骤或子问题，线表示依赖关系。

-DAG如何赋能多模态问答 -

1. 传统RAG方法的局限性

传统RAG常用的“统一检索+一次性生成”流程，在面对运维领域复杂问题时，往往难以满足精准诊断与高效解决的需求，我总结了三点：

1）缺乏结构性：无法对复杂问题进行有效拆解，容易遗漏关键信息，导致回答不全面或不准确。

2）不适用于多跳问题：面对需要多步骤推理和多次信息检索才能解决的问题（即“多跳问题”），传统RAG难以应对。例如，当数据库出现连接超时告警时，传统方法难以一步到位地给出解决方案。

3）难以处理模态切换：运维数据不仅有文本，还包括图片（如告警截图、设备图纸）、表格（如配置清单）等多种模态。传统RAG在处理跨模态信息时存在困难。例如，当一个告警包含一张CPU使用率飙升的监控图时，传统方法难以有效结合图像信息进行诊断。

2. RAG新范式：静态DAG规划

基于静态DAG的RAG新规划范式能将复杂运维问题进行结构化拆解，分解为多个可执行的子问题，同时预先明确子问题间的依赖关系，构建出清晰的DAG，为问题解决搭建系统化框架。

它与业界已有的动态规划方法不同。传统的动态规划通常采用线性、动态调整的路径，效率较低，且容易在多轮交互中出现“意图偏离”的问题。而静态DAG规划则通过预先定义清晰、可并行的任务流，从根本上提升了复杂问题处理的效率和准确性。

基于静态DAG的RAG规划方法为智能运维带来了显著的提升。其核心流程如下：

① 用户提出问题：接收用户输入的复杂运维问题，例如“告警服务器风扇报警后应采取哪些维修措施？”

② LLM进行DAG规划：大型语言模型根据问题的复杂度和类型，将其结构化拆解成多个子问题，并梳理出它们之间的依赖关系。

③ 多模态执行检索：根据每个子问题的具体内容，选择最合适的模态进行检索。例如，查询拆机操作步骤是文本检索，而查看服务器图纸则是图像检索。

④ 答案整合与输出：将所有子问题的检索结果进行整合，并根据预设的依赖关系，最终生成完整的、可解释的答案。

- 静态DAG的卓越性能 -

给大家展示一组真实对比数据吧：

数据来源于一个针对多模态多跳问答数据集的实验，基于静态DAG的方法取得了显著的优势。

相比其他方法，该方法在ExactMatch（回答与标准答案是否完全一致）和F1Score（回答与标准答案的词级重合度）两项关键指标上均表现优异，充分证明了其在解决复杂多模态运维问题方面的准确性。

- 方案来源 -

该方案由一家专门做智能运维场景解决方案的公司（擎创科技）提供。

该公司将大模型技术应用于告警排查领域，构建了L1-L3三层智能告警排查与人机协同诊断框架，这一框架不仅实现了告警的自动化处置，更通过多智能体协作，深入排查故障根因，为运维人员提供了精准的决策支持。

1）L1自动化处置层：针对最常见、最简单的告警，实现自动化处置和效率最大化，通过预设规则匹配和自动化执行（如重启、清理等），快速恢复系统正常运行。

2）L2多源知识检索分析层：当规则无法解决时，L2层利用RAG新范式（基于静态DAG）和大模型能力，为运维人员提供智能分析和决策支持，通过多源知识库检索，快速定位相似告警和处置方案，提升排查效率。

3）L3人机交互式诊断层：针对最复杂、最未知的疑难杂症，L3层通过人机协同方式，结合AI的计算能力和专家的经验智慧，进行深入的问题分析和根因诊断。多轮探索式对话，引导专家逐步逼近真相，实现精准故障定位。

在擎创科技方案中，多智能体协同构建高效智能运维生态，智能体作为智能助手，能够根据人工指令快速排查问题，提供指标查询、日志分析等服务，并对当前告警进行初步判断与建议。同时，另有智能体专注于深度排查与根因推理，综合多维度信息与证据，进行系统化分析，精准定位故障可能根因。

- 成功案例 -

擎创科技的解决方案已在多个行业得到了成功应用，以下是一些典型案例：

案例一

在某头部城商行的产品完整性和基础设施根因定位场景中，擎创科技利用大语言模型，AI Agent及FUNCTIONCALL等前沿技术，实现了精准、快速的故障定位，通过模拟告警接入和L1-L3路径分析，运维人员能够流畅且准确地完成根因定位工作，处理效率得到了90%以上的显著提升。

案例二

某中腰部券商在探索大模型赋能知识运维应用的过程中，通过L1-L3三层架构，该企业成功实现了告警接收、关联CMDB、处置规则匹配以及自动化执行等功能的无缝串联，从而显著提升了整体的运维效率。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-08

企业AI三件套：语义层、动力层、决策层——少一件都做不出AI原生

2026-07-08

拆解2.8万Star开源项目Cognee：如何基于知识图谱做RAG和Agent记忆

2026-07-07

顶级AI 检索服务商Exa ，如何用 Zilliz Cloud服务Agent 检索需求

2026-07-07

知识库分块不是越小越好——改了分块大小，准确率跳了18%

2026-07-07

分类、抽取、Rerank：小模型最容易落地的三个方向

2026-07-07

RAG 和 Agent 到底是什么关系？企业 AI 不只是问答

2026-07-06

加了Query改写，准确率从71%提到89%

2026-07-06

RAG 负责召回，LLM Wiki 负责沉淀：团队知识系统为什么不能只做检索

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

Mem0 深度解析：智能记忆层的架构原理

2026-04-27

RAG又进化了！微软整了个企业级AgenticRAG

2026-05-11

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw