本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

首页 信息速查 百科 在线课堂 智能问答

什么是IFIT?

IFIT是华为公司提出的IETF(Internet Engineering Task Force,因特网工程任务组)标准化检测协议,它通过在真实业务报文中插入IFIT报文头进行特征标记,以直接检测网络的时延、丢包、抖动等性能指标。IFIT采用Telemetry技术实时上送检测数据,并通过iMaster NCE-IP可视化界面直观呈现检测结果,是业界首个完整体系的随流质量感知与故障定界方案。
IFIT与传统网络运维技术相比,具有高精度、实时性、可视化的优点,可以灵活适配多种业务场景,并进一步通过与大数据平台和智能算法的结合为智能运维的发展奠定坚实基础。

为什么需要IFIT?

面向5G和云时代,IP网络的业务与架构都产生了巨大变化。一方面,5G的发展带来了如高清视频、VR(Virtual Reality,虚拟现实)、车联网等丰富新业务的兴起;另一方面,为方便统一管理、降低运维成本,网络设备和服务的云化已经成为必然趋势。新业务与新架构对目前的承载网提出了诸多挑战,包括超带宽、超连接、低时延以及高可靠性。

新业务与新架构提出的新挑战
新业务与新架构提出的新挑战

传统的网络运维方法并不能满足新业务与新架构提出的高可靠性要求,突出问题是业务故障被动感知和定界定位效率低下:

  • 业务故障被动感知:运维人员通常只能根据收到的用户投诉或周边业务部门派发的工单判断故障范围,在这种情况下,运维人员故障感知延后、故障处理被动,导致其面临的排障压力大,最终可能造成不好的用户体验。
  • 定界定位效率低下:故障定界定位经常需要多团队协同,团队间缺乏明确的定界机制会导致定责不清;人工逐台设备排障找到故障设备进行重启或倒换的方法,排障效率低下;此外,传统OAM(Operation, Administration and Maintenance,操作、管理和维护)技术通过测试报文间接模拟业务流,无法真实复现性能劣化和故障场景。

在这种背景下,华为提出了IFIT协议。IFIT是一种带内检测技术(即对真实业务报文进行特征标记或在真实业务报文中嵌入检测信息),通过在网络真实业务报文中插入IFIT报文头实现随流检测。一方面,相比于通过间接模拟业务数据报文并周期性上报的带外检测技术(如TWAMP),IFIT可以实时、真实反映网络的时延、丢包、抖动等性能指标,主动感知业务故障;另一方面,与现有的带内检测技术(如IP FPM、IOAM)相比,IFIT在业务部署的复杂度、转发平面效率以及协议的可扩展性等多个方面都有更好的表现。

不同带内检测技术的对比
不同带内检测技术的对比

进一步的,IFIT可以结合大数据分析和智能算法构建智能运维系统,推动IPv6+时代的智能运维发展,使网络具有预测性分析和自愈能力,为网络的自动化和智能化提供保障。

IFIT有哪些优势?

以下将从检测数据、业务场景、用户界面以及智能运维四个方面展示IFIT技术的优越性。

高精度多维度检测真实业务质量

传统OAM技术的测试报文转发路径可能与真实业务流转发路径存在差异,IFIT提供的随流检测能力基于真实业务报文展开,检测数据可以高精度、多维度地展现真实业务质量,具体描述如下:

  • IFIT可以真实还原报文的实际转发路径,配合Telemetry秒级数据采集功能实现网络SLA的实时监控,丢包检测精度可达10-6量级,时延检测精度可达微秒级,能够进一步支撑对静默故障的完全检测、秒级定位。静默故障是指业务体验受损但没有达到触发告警门限且缺乏有效定位的故障,现网中15%的静默故障常常需要耗费超过80%的运维时间,危害较大。IFIT能够识别网络中的细微异常,即使丢1个包也能探测到,这种高精度丢包检测率可以满足金融决算、远程医疗、工业控制和电力差动保护等“零丢包”业务的要求,保障业务的高可靠性。
  • IFIT不仅支持精准检测每个业务的时延和丢包统计数据,还支持通过扩展报文实现逐包、乱序等多种性能数据统计。在这种情况下,用户可以多维度地监控网络运行质量,有利于把控网络的整体状况。
IFIT基于真实业务流检测
IFIT基于真实业务流检测

灵活适配大规模多类型业务场景

网络的发展并非是一蹴而就的,随着网络需求的不断增长,一张网络中可能同时存在多种网络设备并且承载多样的网络业务。在这种情况下,IFIT凭借其部署简单的特点可以灵活适配大规模、多类型的业务场景,具体表现在:

  • IFIT支持用户一键下发、全网使能。只需在头节点按需定制端到端和逐跳检测,中间节点和尾节点一次使能IFIT即可完成部署,可以较好地适应设备数量较大的网络。
  • IFIT检测流可以由用户配置生成(静态检测流),也可以通过自动学习或由带有IFIT头的流量触发生成(动态检测流);可以是基于五元组等信息唯一创建的明细流,也可以是隧道级聚合流或VPN级聚合流。在这种情况下,IFIT能够同时满足检测特定业务流以及端到端专线流量的不同检测粒度场景。
  • IFIT对现有网络的兼容性较好,不支持IFIT的设备可以透传IFIT检测流,这样能够避免与第三方设备的对接问题,可以较好地适应设备类型较多的网络。
  • IFIT无需提前感知转发路径,能够自动学习实际转发路径,避免了需要提前设定转发路径以对沿途所有网元逐跳部署检测所带来的规划部署负担。
  • IFIT适配丰富的网络类型,适用于二、三层网络,也适用于多种隧道类型,可以较好地满足现网需求。
IFIT适配多种应用场景
IFIT适配多种应用场景

提供可视化的运维界面

在可视化运维手段产生之前,网络运维需要通过运维人员先逐台手工配置,再多部门配合逐条逐项排查来实现,运维效率低下。可视化运维可以提供集中管控能力,它支持业务的在线规划和一键部署,通过SLA可视支撑故障的快速定界定位。IFIT可以提供可视化的运维能力,用户可以通过iMaster NCE-IP可视化界面根据需要下发不同的IFIT监控策略,实现日常主动运维和报障快速处理,具体介绍如下:

  • 日常主动运维:日常监控全网和各区域影响基站最多的TOP5故障、基站状态统计、网络故障趋势图以及异常基站趋势图等数据,通过查看性能报表及时了解全网、重点区域的TOP故障以及基站业务状态的变化趋势;在VPN场景下,通过查看端到端业务流的详细数据,帮助提前识别并定位故障,保证专线业务的整体SLA。
  • 报障快速处理:在收到用户报障时,可以通过搜索基站名称或IP地址查看业务拓扑和IFIT逐跳流指标,根据故障位置、疑似原因和修复建议处理故障;还可以按需查看7*24小时的拓扑路径和历史故障的定位信息。
iMaster NCE-IP可视化界面
iMaster NCE-IP可视化界面

从界面中可以看出,IFIT的监控结果可以在iMaster NCE-IP上直观生动地图形化呈现,能够帮助用户掌握网络状态,快速感知和排除故障,为用户带来更好的运维体验。

构建闭环的智能运维系统

为应对网络架构与业务演进给承载网带来的诸多挑战,满足传统网络运维手段提出的多方面改进要求,实现用户对网络的端到端高品质体验诉求,需要将被动运维转变为主动运维,打造智能运维系统。智能运维系统通过真实业务的异常主动感知、故障自动定界、故障快速定位和故障自愈恢复等环节,构建一个自动化的正向循环,适应复杂多变的网络环境。IFIT与Telemetry、大数据分析以及智能算法这四大技术相结合,共同构建智能运维系统。

基于IFIT构建闭环的智能运维系统
基于IFIT构建闭环的智能运维系统

从上述过程中可以看出,IFIT可以根据网络质量实现从端到端(E2E)到逐跳(Trace)检测的自动切换,其上送的检测结果是大数据平台和智能算法分析的数据来源,也是实现智能运维系统故障精准定界定位和故障快速自愈能力的基石。除了IFIT随流检测以及Telemetry高速采集外,大数据平台拥有秒级查询、高效处理海量IFIT检测数据的能力,并且单节点故障不会导致数据丢失,可以保障数据高效可靠地分析转化;智能算法支持将质差事件聚类为网络群障(即计算同一周期内质差业务流的路径相似度,将达到算法阈值的质差业务流视为由同一故障导致,从而定位公共故障点),识别准确率达90%以上,可以提升运维效率,有效减少业务受损时间。以上四大技术共同保障智能运维系统闭环,推进智能运维方案优化,可以很好地适应未来网络的演进。

IFIT是如何工作的?

以下将介绍IFIT技术的基本原理,以揭示上述优势背后的实现过程。

IFIT如何精准定位故障?

以IFIT over SRv6场景为例,IFIT报文头封装在SRH(Segment Routing Header,段路由扩展头)中,主要包括:用于标识IFIT报文头开端并定义IFIT报文头整体长度的FII(Flow Instruction Indicator,流指令标识),用于唯一地标识一条业务流的FIH(Flow Instruction Header,流指令头),以及用于定义扩展功能的FIEH(Flow Instruction Extension Header,流指令扩展头)。

IFIT报文头结构
IFIT报文头结构

其中,FIH中的L和D字段分别可以提供对报文进行基于交替染色的丢包和时延统计能力。所谓染色,就是对报文进行特征标记,IFIT通过将丢包染色位L和时延染色位D置0或置1来实现对特征字段的标记。通过对真实业务报文的直接染色,辅以部署1588v2等时间同步协议,IFIT可以主动感知网络细微变化,真实反映网络的丢包和时延情况。

另外,FIEH中的E字段可以定义IFIT的端到端(E2E)和逐跳(Trace)两种统计模式。E2E统计模式适用于需要对业务进行端到端整体质量监控的检测场景,Trace统计模式则适用于需要对低质量业务进行逐跳定界或对VIP业务进行按需逐跳监控的检测场景。两者区别在于是否要对业务流途经的所有支持IFIT的节点均使能IFIT能力。

E2E和Trace统计模式
E2E和Trace统计模式

在实际应用中,一般是E2E IFIT+Trace IFIT组合使用,当E2E IFIT的检测数据达到阈值时会自动触发Trace IFIT,在这种情况下,可以真实还原业务流转发路径,并对故障点进行快速定界和定位。

IFIT如何实时上送数据?

在智能运维系统中,IFIT通常采用Telemetry技术实时上送检测数据至iMaster NCE-IP进行分析。Telemetry是一项远程的从物理设备或虚拟设备上高速采集数据的技术,设备通过推模式(Push Mode)周期性地主动向采集器上送设备的接口流量统计、CPU或内存数据等信息,相对传统拉模式(Pull Mode)的一问一答式交互,提供了更实时更高速的数据采集功能。Telemetry通过订阅不同的采样路径灵活采集数据,可以支撑IFIT管理更多设备以及获取更高精度的检测数据,为网络问题的快速定位、网络质量的优化调整提供重要的大数据基础。

如下图所示,用户在iMaster NCE-IP侧订阅设备的数据源,设备根据配置要求采集检测数据并封装在Telemetry报文中上报,其中包括流ID、流方向、错误信息以及时间戳等信息。iMaster NCE-IP接收并存储统计数据,再将分析结果可视化呈现。

基于Telemetry上报IFIT检测数据
基于Telemetry上报IFIT检测数据

在Telemetry秒级高速数据采集技术的配合下,IFIT能够实时将检测数据上送至iMaster NCE-IP,实现高效的性能检测。

IFIT有哪些应用场景?

以下将通过描述IFIT在IPRAN移动承载网、智能云网专线业务以及金融广域一张网场景中的应用,展示IFIT强大的实用性。

IPRAN移动承载网

IPRAN移动承载网具有接入方式丰富,网络规模庞大等特点,各种移动承载业务诸如高清视频等都对链路连通性与性能指标提出了更高的要求。在这种情况下,华为提出了E2E ESQM(Enhanced Stream Quality Monitoring,增强型流质量监控) + Trace IFIT的混合检测方案。其中,ESQM是一种基于五元组信息对TCP、SCTP或GTP报文信息进行统计的检测技术。在该方案中,先进行端到端的ESQM性能检测,当基站流性能指标超过设定阈值时触发逐跳的IFIT检测,iMaster NCE-IP汇总上报的逐跳检测数据进行路径还原和故障定位。

IFIT在IPRAN移动承载网中的应用
IFIT在IPRAN移动承载网中的应用

该方案支持从从基站流、数据流、信令流的不同维度监控业务流的详细指标数据,并基于全网基站的实时性能数据构建大数据智能运维系统,实现基站业务的高精度、业务级的SLA实时感知、多维可视,对网络可能发生的风险进行分析评估和调整优化,实现自动化、智能化运维。

智能云网专线业务

智能云网专线业务是智能云网技术的重要一环,它利用移动承载网广覆盖的优势更加便捷地提供企业专线业务,通过端到端的协同管理提高网络的部署、运营及运维效率。IFIT支持在智能云网专线业务中提供VPN业务分析保障,包括组网专线、上云专线以及云网互联三大场景。这里以上云专线为例,介绍E2E IFIT + Trace IFIT的检测方案。在该方案中,先进行端到端的IFIT性能检测,当VPN流的性能指标超过设定阈值时触发逐跳的IFIT性能检测,iMaster NCE-IP汇总上报的逐跳检测数据进行路径还原和故障定位。

IFIT在智能云网专线业务中的应用
IFIT在智能云网专线业务中的应用

该方案支持按分钟到年多粒度查询VPN业务流性能指标,以及按VPN名称、VPN类型及业务状态查询VPN的整体业务信息,能够端到端的实现端到端的多维度异常识别、网络健康可视、智能故障诊断以及故障自愈闭环。

金融广域一张网

一方面,金融广域一张网依靠SRv6技术简单快速地打通云和各种接入点之间的基础网络连接,确保业务高效开通;另一方面,金融行业本身就对SLA质量有很高的要求,而随着银行业务的发展,网点的业务类型呈现多样化特征,除了传统的生产办公业务外,还有安防、物联网、公有云等业务,这对金融广域一张网的运维能力提出了更高的要求。在这种情况下,华为提出了IFIT隧道级检测方案。

IFIT在金融广域一张网中的应用
IFIT在金融广域一张网中的应用

该方案支持在SRv6场景中使能IFIT隧道级检测,能够通过周期性地对比当前链路和最优链路进行选路调优,实现智能选路。同时,全网一个核心控制器,可以对整个金融网络进行集中式运维,实现端到端的管理和调度。

词条统计
  • 作者: 陈婧怡
  • 最近更新: 2021-10-09
  • 浏览次数: 2118
  • 平均得分: