本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索
首页 信息速查 IP知识百科 在线课堂 智能辅助

什么是AIOps?

AIOps(Artificial Intelligence for IT Operations,智能运维)是指利用人工智能(AI)等技术,精准地管控和分析IT系统中的海量运维数据,并通过自动化、智能化的方式来优化运维流程、提高运维效率和运维质量。
AIOps的特点是利用机器学习、深度学习等AI技术,对运维类数据进行分析和处理,从而对运维目标进行健康度评估、智能定位和异常分析,甚至发现潜在问题,提升目标系统的可用性和稳定性。
AIOps将会成为IT运维的重要发展方向,帮助企业更加高效、智能地实现数字化转型。

为什么需要AIOps?

IT系统的运维先后经历了人工运维和自动化运维阶段,目前正在向智能运维(Algorithmic IT Operations,AIOps)阶段演进。在人工运维阶段,主要依赖运维专家的工作经验来进行故障分析、定位和排障,整体运维效率不高,且需较长时间的积累。在自动化运维阶段,运维团队使用脚本、工具等方式执行运维任务,运维效率有了明显提升,但运维团队需要掌握自动化运维工具的开发和迭代,学习难度高。

随着当今社会信息化程度越来越高,人们的生活方式、社会组织形式、企业商业模式等都在不断发生变革。在这背后,IT系统复杂度和规模不断增长,各种新技术和新架构层出不穷,各类数据爆炸式增长。这些都极大地挑战着现有的IT运维能力。面对海量数据、不停变化的系统状态、繁多的业务应用和不同的配置参数,运维工程师的精力有限,人工运维和自动化运维的手段和理念已经无法满足当今大规模IT系统的运维诉求。

为此,Gartner于2016年提出了AIOps(智能运维)的概念。AIOps平台通过大数据、机器学习(Machine Learning,ML)、人工智能等技术,自动地学习和分析海量运维数据(包括历史数据、日志数据、业务数据、系统数据等),给出运维决策建议,可增强和部分取代现有运维流程和操作。AIOps可以满足大规模IT系统的运维诉求。

随着企业或组织数字化、智能化转型的深入,对AIOps的需求只增不减。

AIOps的价值和优势

AIOps全面覆盖了“数据采集 > 数据分析 > 运维决策 > 处理执行 > 异常预测”的运维关键链条,可以帮助运维人员快速发现、精准处理IT系统的异常事件。AIOps有以下价值和优势:

  • 缩短MTTR(Mean Time To Repair,平均修复时间)

    MTTR是衡量系统可靠性和可维护性的重要指标之一,通常用于评估故障修复效率和维护团队的工作表现。

    AIOps可以帮助维护团队综合多个IT系统的有效运维数据进行关联性分析和大数据计算、推理,比人工或自动化运维更快速、更精准地发现故障、定位故障和给出故障处理建议,因此可以显著缩短MTTR。

  • 从被动运维升级为主动运维

    传统的运维方式是IT系统出现了异常以后,运维团队通过经验或工具进行分析,确认故障发生,并展开后续排障工作。此时,很可能上层应用体验已经受到了不利影响。有时候,运维团队甚至无法发现异常,而是通过业务团队报障后才启动进一步的故障定位,工作极为被动。

    AIOps借助大数据分析、机器学习等能力,可实现预测性运维。根据历史数据的对比并结合现状推理,可以在业务部门报障前发现异常。随着机器学习数据的积累和迭代,这种预测性将越来越准确,甚至可以在业务正常时,根据某种指标的劣化趋势来提前预判将要发生的异常。这样可促使运维团队提前主动执行维护动作,将故障消灭在萌芽阶段,防患未然,保障业务长期稳定运行。

  • 降低运营成本

    虽然初始构建和开发AIOps系统成本较高,但一旦投入使用,可节省大量维护人力,可将这些人力解放出来投入到更高级的创新性工作中去。随着时间的推移,对整个组织而言,运营成本更低,性价比更高。

AIOps的技术特点

根据Gartner的定义,AIOps产品或平台主要包括以下5类技术要素:

  • 数据源:来自各IT基础设施的底层记录数据。
  • 大数据平台:用于处理、分析静态和动态实时数据。
  • 计算与分析:数据预处理、数据标准化等清洗工作。
  • 算法:用于计算和分析,以产生IT运维场景所需的结果。
  • 机器学习:包括无监督、有监督和半监督学习。

从整体上看,AIOps关键竞争力体现在3个方面:基于AI的核心算法能力、无缝地与IT系统集成能力、多元数据的整合能力。

其中,算法是AIOps的核心能力。当前AIOps算法主要集中在异常检测预测根因分析,主要技术趋势如下:

  • 异常检测技术:传统领域以有监督算法为主,AIOps领域以有监督和无监督算法结合为主。
  • 预测技术:从传统机器学习发展到以LSTMLong Short Term Memory,长短期记忆)为代表的深度学习
  • 根因分析技术:传统采用关联规则和无监督算法,应用知识图谱算法进行根因分析是新趋势

DevOps和AIOps有什么区别?

DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。它是一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的文化、运动或惯例。透过自动化“软件交付”和“架构变更”的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠。

DevOps和AIOps都是用于优化软件开发和运维的方法论,不同之处在于:

  • DevOps侧重于优化开发和运维之间的协作和自动化,旨在加快软件交付的速度和质量,强调团队合作和持续集成。
  • AIOps侧重于利用人工智能和机器学习等技术来优化运维过程,通过数据分析和推理预测来实现智能化的运维管理。AIOps强调实时的故障检测、自动化和智能化的故障处理和资源优化。

综上所述,DevOps更注重软件交付流程的优化,但它只能完全的按照人类制定的指令和流程运行,无法自主应对新问题;而AIOps可实现运维过程的智能化。

华为在数据通信领域中的AIOps平台和方案

华为在数据通信领域中,通过iMaster NCE系列产品提供越来越高级别的网络自动驾驶方案,全面覆盖各类网络的“规划、建设、维护、优化”的全生命周期。毫无疑问,AIOps智能运维是其中重要的一环。

以华为数据中心网络为例,在智能运维阶段实现的关键能力包括但不局限于:

  • 变更及扩容阶段:业务变更意图的识别、自动推荐变更方案、变更下发前仿真评估、变更下发后可按需回滚、自动生成验收报告。
  • 监控阶段:基于业务的视图自动创建监控任务,持续监控。
  • 排障阶段:实时识别异常,1分钟发现问题、自动分析故障根因、推荐最佳修复方案、预测软硬件故障。
  • 调参优化阶段:根据流量模型,自动调整设备内部队列,实现0丢包;建立业务质量的动态基线,可提前预测业务的劣化。

如下图所示,iMaster NCE数据中心自动驾驶网络管理控制系统,是集管理、控制和分析于一体的自动化与智能化平台,是数据中心自动驾驶网络的大脑,以意图引擎、自动化引擎、分析引擎、智能引擎及网络数字孪生底座实现数据中心网络全生命周期高度自动化和智能运维。

iMaster NCE数据中心自动驾驶网络管理控制系统逻辑架构
iMaster NCE数据中心自动驾驶网络管理控制系统逻辑架构

AIOps智能运维的核心组件是iMaster NCE分析引擎,它建立了一整套故障发现、故障根因分析与智能推理、故障处理维护的统一框架。通过大数据技术构建海量设备数据的采集与分析能力,实时感知设备KPI、状态以及表项变化,并支持全流采集分析。iMaster NCE分析引擎由健康度评估、异常检测和根因分析三部分组成。

  • 健康度评估

    将网络KPI、流量及状态等指标进行抽象建模,建立面向设备、网络、协议及业务的网络健康度评估体系,并根据性能、容量、状态、安全攻击及连通性等多个维度,综合、实时评估网络健康状态。

  • 异常检测

    基于网络健康评估,实现未发生故障主动预测,快速感知已发生网络异常和故障。

  • 根因分析

    基于知识图谱进行深度特征挖掘和学习,辅以故障排查和配置表项比对等手段,实现网络故障根因快速定位。根因定位后,分析故障影响并推荐优选故障处理方案。同时,可以根据网络流量等数据,提前识别和分析出故障风险,进行主动优化,排除网络隐患。

词条统计
  • 作者: 张帆
  • 最近更新: 2024-07-19
  • 浏览次数: 15415
  • 平均得分:
分享链接到: