微信扫码
添加专属顾问
我要投稿
大模型如何破解企业运维困局?本文汇集多位行业专家实战经验,揭示智能化运维落地关键路径。 核心内容: 1. 传统运维模式面临的四大核心痛点 2. 大模型赋能运维的三大突破性能力 3. 金融/零售行业专家分享的落地难点与解决方案
议题主持:
仙守 算法工程师 苏宁易购
同行分享:
叶创 应用运维 某城商行
仙守 算法工程师 苏宁易购
顾黄亮 技术总监 某金融企业
huyue 数据分析师 SGM
LugaLee 系统架构师
1、企业落地大模型智能化运维的难点有哪些?
● 仙守 苏宁易购 算法工程师:
大模型已经算是一种新的革命,各行各业都可以将其引入进行尝试,以期是否能带来新的希望。但是在智能化运维上,应用大模型的成功案例还是不够多,这主要是因为:
1.运维团队多是Linux高手,而对人工智能的知识储备不足,算法的概念,以及算法能做什么,怎么做,算法边界又是怎样的等知识储备不足。
2.智能化运维中的故障修复等统计归纳工作不足,大量的运维都是命令式、脚本式运维,或者大规模工具的可视化运维,代码式运维的占比不够多。
3.运维面临的环境复杂多变,诸多问题是需要按图索骥一点点进行溯源,甚至需要跨机器,或者更深层次定位才能解决,而系统版本变化,应用软件版本变化,都导致故障修复的解决方案有所不同。
4.运维团队的日志数据,解决方案数据等储备不足,而这也是大模型做训练时缺少的样本。
5.企业领导在财务计算上会发现一个人的成本可能远低于大模型私有化训练且需要显卡等高额的成本,除非某个云厂商直接提供一个完全成熟的大模型服务直接调用,且价格低廉。
在打动领导者实时智能化运维上永远是3点:
1.安全,使用智能化运维能够减少敏感数据的泄露。
2.成本,总体计算下来和多招人相比智能化运维能够省钱。
3.收益,使用智能化运维能够更快速更高效地解决运维问题。
● huyue SGM 数据分析师:
有如下难点:
1.数据安全:企业数据的安全问题,一般企业数据是不能将数据流出到外面,因此不可用外部的大模型服务。
2.模型的选型及部署:根据不同的业务场景选择经过验证且合适的私有化大模型,并进行工程化部署。比如:一个简单的意图识别任务,用一个14b大小的模型即可,不需要直接用72b的模型,以避免成本的增加及性能的下降等。
3.价值收益:如何衡量业务场景的运维收益和大模型的成本高低。
4.任务拆解:运维场景的具体任务拆解成大模型的任务,这需要有对业务场景和大模型功能都非常熟悉理解的专业技术人员。
● Luga Lee 系统架构师:
这是大多数中小企业面临的共性问题,我们可以从数据、经济成本以及核心技术力等3个核心维度解析,具体可参考:
1.数据质量与规模问题:企业计划落地大模型,首先要有明确的目标,到底是基于大模型做什么,拿什么做,一定要想清楚。通常情况下,大模型训练和推理依赖于海量高质量的数据。而我们的运维数据通常分散在各种监控系统、日志文件、告警信息中,存在数据孤岛、格式不统一、噪声多等问题。如何有效地采集、清洗、整合这些数据,并构建高质量的训练数据集,是首要面对的一个不可避免的难题之一。
2.核心技术力层面:现有团队中有没有合适的人去负责推动、去主导大模型落地?知识储备是否能够支撑大模型的应用及开发?针对目前的业务系统架构,如何将这些领域知识有效地融入进大模型中,使其能够理解运维人员的意图,使得模型能够正确理解所投喂的食材,产生预期的效果,也是面临的问题。
3.资源投入及成效回报:这里面涉及基础平台建设以及所投入的计算及存储资源。如果一个公司没有完善或健全的可观测性体系框架或堆栈,对于数据的维护及管理是非常头疼的问题。毕竟,全面的监控指标和详细的日志记录以及丰富的事件数据,是构建高质量训练数据的基础。没有这些数据,大模型的落地显然没有更多的实际意义。再者,模型选择与训练是需要成本的,无论是底层基础设施还是人力成本,都是需要考虑的问题。
● 顾黄亮 某金融企业 技术总监:
准确地说,智能运维的推进在企业中有很多的门槛,重点是人才培养和人员的理念。
第一是人才方面,运维人员首先需要具备一定的研发能力,尤其在机器学习和算法方面,需要有介入的能力,而且这部分人群转型也非常困难,让一个熟悉服务器硬件维修的运维人员去理解和应用机器学习算法进行故障预测是有很大难度的。还有招聘方面,如果具备这种素质的人员,也不会选择运维领域。
第二是数据,智能运维的根基是数据,要实现全面的智能化运维,需要收集包括硬件、软件、网络等多个维度的数据,数据收集后,还要进一步进行加工和处理,最后整合阶段也是一个非常大的挑战,因为这种大量的异构不同源的数据,其数据格式和存储方式都不一样。
第三是系统的异构性,目前很多企业的IT系统,有自研的,有购买的,而且IaaS环境的标准也不统一,所以造成数据处理环节,甚至语料准备阶段就开始形成推进的阻力。
2、IT运维团队需要具备哪些能力,才能更好地使用大模型赋能自动化运维?
● Luga Lee 系统架构师:
若面向运维团队的话,运维领域知识与大模型结合的能力可能是最需要考虑的首要要素。运维团队需要构建自身的领域知识体系为大模型作平台支撑,通过建立运维框架为大模型进行数据输入,比如,日志、指标以及相关事件信息等。同时,基于不同的运维场景转化为模型可以理解的任务以验证模型输出的准确性及合理性。当然,编程能力以及大模型知识也是需要掌握。
因此,在实际的工作中,若想更好的使用大模型赋能运维,我们可以通过系统培训、实践项目、技术交流、优质学习资源以及外部合作的有机结合,可以为团队成员构建一个全面的学习与成长环境,不仅有助于提升个体技能,还能增强团队的整体竞争力。
● 仙守 苏宁易购 算法工程师:
在IT运维团队的能力构建方面需要基于以下几个点展开:
1.大模型相关能力
(1)需要了解市面上有哪些成熟的大模型,每个大模型开源,商用的规则,每个大模型能否支持微调,以及他们是基于哪种领域数据训练出来的。
(2)调用大模型的能力。通过调用市面上不同云厂商提供的大模型达到快速验证的目的,和自己通过vllm进行大模型本地化部署。
(3)大模型Agent的理解以及使用能力。
(4)自动化运维故障修复,或者任务执行的抽象能力。抽象好才能以大模型Agent的函数调用方式去执行。
(5)大模型prompt的编写以及调试能力,每个大模型都有各自的切合点,不同的prompt影响很大。
(6)运维日志采集,清洗,转换,标注
2.工具使用能力
(1)运维常见工具的使用能力
(2)自动化运维工具的使用能力
(3)常见大模型的微调涉及到的工具和库,如openai,deepspeed
(4)docker使用能力、cuda安装及问题排错能力等等。
● 匿名同行:
1.私有化运维场景的业务能力,清晰明确的知晓运维的场景、目的、相应的策略、系统化拆解的能力。
2.大模型的能力挖掘和使用,需要知道大模型的能力范围、使用方式、调优方式,以便更好的运用大模型。
3.大模型的私有化部署和选型能力。
4.智动化运维业务场景的拆解和大模型能力结合的能力
● 顾黄亮 某金融企业 技术总监:
大模型智能化运维这几个问题如何解决:1.如何对设备系统的数据收集、清洗和转换?2.如何自动化执行运维任务,故障修复,提高运维效率?3.大模型被认为一个黑盒,如何对问题处理决策进行解释?
● 仙守 苏宁易购 算法工程师:
针对题目中的三个问题:
1.如何对设备系统的数据收集、清洗和转换?
(1)数据收集:利用传统监控工具,日志获取,埋点增加监控指标等方式进行数据收集和完善。
(2)数据清洗:可以利用传统nlp等方法进行清洗,比如控制字符过滤,大量安全日志采样降低比重等清洗方式。
(3)数据转换:传统nlp需要进行分词,词性标注等等,而到了大模型时代,不需要太多的数据转换,只需要大模型的词表统计即可,方便后续token化。
2.如何自动化执行运维任务,故障修复,提高运维效率?
大模型本质上是个生成模型,也就是通过上一个token计算下一个token的概率,其类似一个大脑,是无法完成执行等具体行为的,必须通过Agent,也就是函数调用等方式,而这需要提前编写。通过构建对应的Agent,当日志中发现一些之前设定好的场景或者意图即可触发对应的修复Agent函数调用完成任务。
3.大模型被认为一个黑盒,如何对问题处理决策进行解释?
大模型一定程度上无法完全解释,但是如果对性能无实时要求,可以让大模型将每一步的思考过程输出出来,比如“请将你的思考过程一步一步的输出”来让大模型给出具体的思考过程。但是仍需注意大模型的确存在幻觉问题,即这也可能引发未知的运维事故。
● 匿名同行:
大模型智能化运维面临的内容和问题主要包括以下几个方面:
1.数据收集、清洗和转换:
智能化运维的效果高度依赖于数据的质量和完整性。如何确保数据的高质量和完整性是一个重大挑战。企业可以采用数据清洗和预处理技术,去除错误和不一致的数据,建立完善的数据治理机制,确保数据的完整性和一致性。
2.自动化执行运维任务,故障修复,提高运维效率:
智能化运维可以利用机器学习算法对历史数据进行分析,提前预测潜在的系统故障,从而采取预防措施,减少停机时间。自动化工具能够根据预设的规则和知识库,自动执行一系列排查步骤,缩短故障恢复时间。
基于智能分析的结果,可以自动执行一系列运维任务,如资源分配、故障修复、系统优化等。同时,通过持续监控执行效果,不断调整和优化运维策略,形成一个闭环的运维体系。
3.大模型的“黑盒”问题和决策解释性:
大模型被认为一个黑盒,如何对问题处理决策进行解释是一个挑战。需要对模型输出的归因结果进行解释和评估,判断其合理性和准确性,结合领域知识和人工经验,对归因结果进行验证和修正。通过大模型做到智能运维,需要对云事件进行自动根本原因分析,这包括数据采集与整合、模型选择与训练、归因推理、结果解释与验证以及持续优化。
4.技术整合与兼容性:
现代IT系统通常包含多种技术和平台,如何将这些系统的数据和技术整合到一个统一的智能化运维平台上,是另一个重要挑战。不同系统之间的兼容性问题可能导致数据无法有效共享,影响智能化运维的整体效果。
5.安全性与隐私:
智能化运维涉及大量的数据收集和处理,这对数据的安全性和隐私保护提出了更高的要求。如何确保数据在传输和存储过程中不被泄露或篡改,是一个亟待解决的问题。此外,智能化运维还需要遵守相关的法律法规,以确保数据处理的合法性。
6.技术复杂性:
为了克服技术复杂性的难题,企业需要培养一支具备跨学科知识的技术团队,并积极引入外部专家进行指导。
7.成本问题:
智能化运维的成本较高,对于中小企业来说可能是一个负担。因此,建议企业根据自身实际情况选择合适的智能化运维方案,并逐步推进实施。
这些内容和问题指出了大模型智能化运维在实际应用中需要关注和解决的关键点,以确保智能化运维的有效性和安全性。
● 叶创 某城商行 应用运维:
1.对设备系统的数据收集、清洗和转换还是从专业监控工具走,大模型的运维智能体主要还是做数据消费,而且是对已经由专业监控工具处理过的数据做消费,结合工单数据、自动化作业执行数据和CMDB数据。智能运维由要做运维数据治理的说法,但是目前不成熟,大都就是做了个数据湖把所有数据存在一起方便查询消费,投入产出比低 ,其实不如直接从各类工具走API读取。
2.用了大模型仍然和以前AIOps一样,除了已经完全确定的自愈方案之外,大模型只做故障修复方案推荐,决策在人。大模型相当于一个具备大量知识且学习能力很强的运维新手,技术强但是实战经验差,主要做辅助。
4、企业构建智能运维大模型时,当下的运维工具是否需要重新整合?
● 顾黄亮 某金融企业 技术总监:
需要看情况,运维工具的建设大概有几个方面,第一个是工作流的集成,第二个是工具功能的使用,第三个是数据层面。
如果不考虑成本,在构建运维大模型的时候,会对工作流和工具功能重叠情况进行整合,这是模型自身的工作,和工具层没关系,所有工作流程和工具功能不需要变动,无论工具原本是原子化还是工具集群,都不重要。
唯一要整合的是数据,数据分两块,一块是数据格式,还有个是数据兼容性问题,数据问题牵扯到模型的训练,比如说大模型在输入统一格式的数据时,训练和推理能力会大大增强,所以在数据收集这个层面,需要对所有工具的数据进行约束。数据兼容性其实就是存储方式,和数据收集中间层一样,存储层也需要重新规划。
● 仙守 苏宁易购 算法工程师:
智能运维的核心是大模型实时读取各种监控系统的日志,进行特定场景和问题的分析,并给出解决方案,然后通过Agent的函数调用进行执行来自动化修复。基于上述的定义,那么基于问题的涉及的范围就缩小到了数据收集、执行工具的调用这2大方面。
1.数据收集和格式化
企业的历史原因,一定是多种监控系统,多种监控指标并行的,而如果将不同格式的数据都给大模型,那大模型就要面对不同的数据格式,这本身就是一种挑战。所以如果输入给大模型的数据是统一格式,那么在大模型解释以及执行上,效果会有很大的提升。
2.执行工具的调用
执行工具包含了比如flink数据清洗、sql进行性能监控、修复脚本执行等,要完成实际意义上的智能化运维,那么需要最后的执行,而如果大模型直接接入每个系统,那难度将会成倍增加。所以可以通过Agent的函数抽象,将每个执行工具进行函数调用的统一化,然后选定一个大家都同意的执行方式,比如shell,比如python,比如java等等最终去实际执行具体的动作。
● Luga Lee 系统架构师:
智能运维大模型的建设对企业现有运维工具提出了更高要求,但是否需要重新整合,取决于工具链的适配性、改造成本以及对业务目标的支撑能力。
从本质来讲,针对大部分公司而言,智能运维大模型的 “ 核心 ” 便是 “ 数据 ” ,针对各种各样的数据进行抽取、训练,以实现异常检测、根因分析、故障预测等高级功能。而现实情况下下,很多企业所规划的运维工具往往是 “ 断层式 ” 的,各自负责不同的监控、告警、日志分析等任务,数据分散且格式不统一。
本次活动聚焦于企业在大模型的趋势下如何进行智能运维的问题,通过广泛的讨论和业内诸多专家的经验分享,总结了落地大模型智能化运维的难点、IT运维团队需要具备哪些能力、大模型智能化运维面临内容和问题、构建智能运维大模型时运维工具是否需要重新整合等4个核心议题,从判断引入大模型后会面临的问题,以及该具备哪些能力到具体工具整合上,最终形成一整套完整的解决方案:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-14
我如何用 Coze 独立开发一个 AI 客服系统(上篇)
2025-06-12
首个AI Agent零点击漏洞曝光:一封邮件窃取企业AI任意敏感数据
2025-06-12
AI实现智能客服第1节:基于FastGPT知识库的AI客服搭建与使用
2025-06-12
AI实现智能客服第2节:借助RAG实现常见问题的同程旅行AI客服
2025-06-12
AI实现智能客服第3节:AI客服的核心能力RAG介绍
2025-06-12
AI实现智能客服第5节:RAG优化之指代消解/查询重写增强同城旅行客服
2025-06-12
全链路实战解析:企业如何用AI Agent提效50%?|95%的企业将被AI Agent重塑!
2025-06-10
Xinference 客户案例分享:东南亚客户的多模型部署
2025-03-17
2025-03-17
2025-03-19
2025-04-06
2025-05-27
2025-03-19
2025-05-26
2025-05-28
2025-03-30
2025-04-01