支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


企业当前适合引入大模型驱动的智能运维吗?

发布日期:2025-05-27 07:47:51 浏览次数: 1567 作者:twt企业IT社区
推荐语

智能运维转型是否适合您的企业?本文深入探讨企业在大模型驱动下的智能运维选择与实践。

核心内容:
1. 传统IT运维的局限性与挑战
2. 大模型智能运维的优势与应用场景
3. 企业引入智能运维的考量因素与实践建议

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


传统的IT运维方式通常依赖人工监控和规则驱动的方式来识别问题、排查故障和优化服务。然而,随着企业的IT基础架构日益复杂化,传统运维手段逐渐显露出效率低下、响应滞后以及难以处理海量数据的缺点。其中就包含系统环境运维、业务环境运维、业务程序运维等,且企业多具备分布式系统、微服务架构和多云环境,这些都给运维带来了巨大的挑战。传统运维方式不仅难以全面捕捉系统运行状态,还可能因人为误判导致更严重的宕机或事故。

在大模型崛起的背景下,智能运维成了大家寻求的解决手段,通过预设定好方案,以期待对运维数据进行实时分析、异常检测、根因定位以及提前预测。这种智能化的运维模式具有以下优势:从被动响应转向主动预防,从单点问题诊断到全局系统优化,以及从繁琐操作到自动化决策。例如,大模型可以基于历史数据和实时日志预测潜在问题,生成多种解决方案供运维人员参考,大幅缩短问题解决时间,甚至可以直接通过Agent执行预设定好诸多排错操作。

然而,并不是所有企业都适合引入智能运维系统。智能运维的部署往往需要企业具备一定的技术基础(如数据积累、算力支持和专业团队),并且需要明确的业务痛点和应用场景。因此,企业在决策是否引入智能运维时,必须结合自身IT环境、业务需求以及成本收益比进行全面评估。

本文来自社区“大语言模型趋势下,企业智能化运维场景如何选择及落地实践赋能培训”活动中探讨的议题之一。对于企业决策能够有所启发。



议题主持人 仙守 苏宁易购算法工程师
随着人工智能技术,特别是大模型的快速发展,企业的运维团队也将目光转向了大模型领域。越来越多的企业开始关注智能运维,这种结合了大模型能力的IT运维方式,不仅能够提升系统监控的精确性,还可以通过预测性分析、自动化决策等手段,帮助企业从“被动响应”转向“主动优化”。这就引发出一个问题,是否每个企业都适合引入大模型开展智能化运维的变革?从社区中这次举办的线上赋能培训活动中,我们可以看到大家都有各自的宝贵的见解和丰富的实践经验,希望我们能从中找到自己问题的答案或者能够有所启发。
同行探讨如下——
● 叶创 城商行应用运维: 
以现在大多数企业的运维标准化水平和规模,智能运维的投入产出比都不高。在大模型之前的AIOps,技术上能落地的是动态阈值和故障定位,常规金融企业的IT规模,动态阈值比起基于专家经验的阈值设置,以及同比、环比这样的高阶阈值设置方法,并没有显著提升。一方面是大部分系统的流量波动不大,一方面是规模小,处在人可以处理的范畴内,判断还更准。故障数据属于小数据样本,对算法的训练调优也不明显。云厂商做智能运维的收益还相对高一些。其他的更多像科研而不是实际生产应用。
大模型在运维层面做应用,有两个基础,一个是运维数据足够好,例如CMDB、可观测数据是足够可信的,很多公司做运维,这两块要么准确度不够,要么覆盖度不高;运维文档要足够充分且线上化(线下文档也可以喂給向量数据库),这样就可以完成运维和IT服务层面的问答,协助完成常规的运维任务,二是运维能力API化,这样基于大模型做智能体,可以调度各类的运维工具能力。如果这两方面没做好,大模型的引入能起的作用有限,优先打好基础,个人层面用ChatGPT之类的通用大模型提升自己的运维效率就差不多了,文档、脚本编写,问题查询基本也够用。不用着急上升到组织层面的应用,基础数据不行,私有大模型的表现还不如通用大模型。
● 仙守 苏宁易购算法工程师:
企业是否需要引入智能运维,这需要从如下几个方面进行衡量和考虑:
1.智能化人员的储备
在传统运维领域中,更多的是某个独立领域的专家,而现在需要引入大模型的智能化运维,那需要对大模型的知识储备以及使用多一份成本,比如现在市面上每个大模型的适用领域、各自特点,针对自己企业的智能化运维的场景的分析以及数据准备、大模型prompt、COT、Agent等的理解和基于场景的使用等。
2.大模型整体的成本投入
大模型的投入上分:模型的部署(私有化部署或者调用云的大模型的成本)、具备大模型能力以及运维能力的人员的招聘、整体系统需要改造而进行的产品、研发、运维等投入。相比较而言之前只需要对应运维能力的人员招聘即可。
3.大模型带来的收益是否可观
在未使用大模型之前,运维称为人肉运维。即出现任何问题都需要运维远程登录进行排错。维护、升级等等。而大模型之后可以这部分的代替率,假定之前人肉运维的收益是50分,大模型的智能化运维是能到60分还是只能到40分,这需要进行调研。
● 陈萍春 某保险系统架构师:
有如下几个判断标准供参考:
1.场景:当前的运维模式无法满足当前的业务场景需求,同时运维需求任务拆解下来可用大模型或者部分过程可用大模型完成。
2.响应时间:大模型作为智能化运维的中间环节,其响应时间可以满足整体智能化运维的需求。
3.成本:智能化运维带来的效率或者价值提升大于利用大模型本身带来的成本。
● 顾黄亮 某金融企业技术总监:
般情况下,如果自动化运维已经实现了大部分运维能力,那就不需要再在生产环境中上智能运维:
1.成本投入过大。
2.没有海量数据和语料,结果也不会好。
3.学习的成本不能在实际项目中实践,价值很小。
如果企业具备以下一些特征,需要马上推进智能化运维:
1.系统特别多,业务规模很大。
2.海量数据。
3.人员能力具备了。

如何引入,其实不建议自己琢磨或者自研,拿来主义,把开源的,或者一些免费版的先试用,流程跑通,然后再深入。


同行交流共识

在大模型技术快速发展的背景下,智能化运维是一个很好的探讨点和企业运维转型的出发点。但是是否需要引入智能化运维,以及如何成功将智能化运维进行落地,每个企业需要根据自身的实际情况去评估和分析。此次活动为与会同行提供了深入交流的机会,大家针对企业是否需要引入智能化运维给出了如下的评估原则,可以总结如下:

1.引入智能运维的基础条件。智能运维的有效应用依赖于企业运维基础的成熟度。主要包括两方面:一是运维数据的质量和覆盖度,二是运维能力的API化。如果企业的CMDB(配置管理数据库)和可观测性数据不够准确,或运维文档没有实现线上化,大模型的应用效果将大打折扣。对于多数中小型企业而言,这些基础建设尚未完善,盲目引入智能运维可能会导致投入产出比不高。因此,企业应优先打牢基础数据和工具能力,再考虑大模型的引入。

2.智能运维的投入产出比。智能运维的引入需要衡量成本与收益。一方面,企业需要投入大量资源,包括私有化部署、调用云端大模型、人员招聘与培训,以及IT系统的改造等。另一方面,收益则体现在提升运维效率、减少人力成本、以及更快的故障响应速度上。然而,如果企业运维规模较小,业务场景较为简单,传统的自动化运维仍然能够满足需求,大模型可能无法显著提升价值,甚至出现“收益不如投入”的情况。

3.适用场景与决策依据。首先,运维需求的复杂性是关键。如果企业的系统数量庞大、业务规模巨大、涉及海量数据处理,那么智能运维能提供显著价值。其次,智能运维需要满足响应速度要求,即在复杂场景中比传统运维更高效。最后是成本收益比的综合评估:如果智能运维的价值提升显著大于其成本,则值得引入。企业可以先通过试用开源或免费版的智能运维工具验证流程是否有效,再决定进一步的投资和深入应用。

总体来看,大模型驱动的智能运维并非适用于所有企业。中小企业和运维需求简单的企业可以优先通过通用大模型来提升个人运维效率,如文档编写、问题查询等,而无需立即上升到组织层面的应用。对于业务规模大、数据量充足且人员储备完善的企业,则可以逐步尝试大模型的智能运维,慢慢进行升级迭代更新。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询