本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索
首页 信息速查 IP知识百科 在线课堂

什么是AQM?

AQM(Application-network Quality Measurement,应用网络质量测量)是一种能够基于网络质量动态变频并模拟应用特征进行主动探测的单端部署检测技术,能够实现应用级的精细化网络质量监控以及流量的实时、可视化管理。

为什么需要AQM?

业界广泛应用的音视频会议主要采用SaaS(Software as a Service,软件即服务)部署方式,目前对于广域SaaS场景上行流缺少基于应用的高精度探测方式,当音视频会议出现卡顿、中断等问题时,故障难以定界定位,导致用户体验长时间较差。现有主要的检测技术如iPCA2.0NQA,他们各自的优势和不适用性如下所述。

  • iPCA2.0:一种随流检测技术,基于真实业务开展,能够准确反映业务质量。但是,iPCA2.0是一种双端部署检测技术,在SaaS场景中无法有效部署在服务器端,只能检测园区内部的网络质量。
  • NQA:一种通用的基础测量技术,仅需单端部署,拥有丰富的测量类型。但是,NQA无法感知应用特征,在实际测量音视频会议的网络SLA(Service Level Agreement,服务水平协议)时,由于缺乏参数配置依据,测量精度较低,无法真实反映应用的传输质量。

AQM的诞生可以解决上述问题。AQM能够基于路径发现技术还原流量路径,通过模拟实际应用流的报文大小、发包频率等特征进行发包,并结合流量路径和探测结果实现故障定界定位,能够大幅度提升测量精度,将关键业务故障定位时间由天级缩短至分钟级。AQM还能够将网络拓扑、检测指标、故障位置等关键信息上报网管,集成网络数字地图,在提升用户可视化体验以及提升运维效率的同时,帮助构建智能运维系统。

AQM适用于制造、教育、政府等多领域的中大型园区场景,使用AQM能给用户带来的受益如下所述。

  • 重要会议前网络SLA监控:对重要会场访问音视频会议系统的网络质量进行巡检和持续监控。
  • 重要会议中以及日常运维故障定界:出现终端访问会议系统问题时,能够进行快速定界,实现网络自证清白或者定位网络故障位置。
  • 日常运维7*24小时网络SLA监控:通过监控企业总部和分支网络的日常办公会议访问质量,实现群障快速发现和主动运维。

AQM的应用场景

AQM的典型应用场景如下图所示,AQM的检测范围覆盖园区有线网络、广域网络以及边界设备(Cloud Edge)与服务器间最后一跳这三段,检测点一般部署在核心或汇聚层,可以探测到目标应用的服务器之间的网络质量。

AQM典型应用场景图
AQM典型应用场景图

AQM是如何工作的?

AQM的检测过程分为路径发现、慢速探测、快速探测以及逐跳定位四个阶段,具体如下所述。

路径发现

路径发现阶段的路径探测基于UDP报文实现,探测的目的地址为服务器地址,服务器地址可以人工指定,也可以自动获取,具体请参考探测地址自动识别。路径发现流程进一步分为园区路径发现和广域路径发现两个部分。

表1-1 路径发现流程

探测类型

探测范围

探测过程

探测效果

园区路径发现

汇聚——核心——上网行为管理——防火墙——ISP(Internet Service Provider,互联网服务提供商) Router,假定全部为双活、全连接的情况下,共有16条路径。

构造基于UDP协议的探测报文,针对某条UDP探测流,TTL从1开始逐跳递增。当某一跳IP地址与配置的园区边界IP地址匹配时,提前结束本条UDP流探测。当连续10跳等待超时或TTL达到上限后,停止本条UDP流探测。

当发现路径数量达到16条,或拓扑收敛(即达到根据拓扑逐跳反推的探测流数量上限)时,路径发现结束。

实现园区内完整拓扑呈现,包含16条路径以及覆盖16条路径所需要的UDP端口特征值。

广域路径发现

从ISP Router到Cloud Edge,选取3条路径。

构造基于UDP协议的探测报文,针对某条UDP探测流,复用园区路径端口号,TTL从园区边界的TTL开始逐跳递增,每一跳发1个探测报文。当连续10跳等待超时或TTL达到上限后,停止本条UDP流探测。

探测流数量上限为16条,可能探测出多条路径,选取其中3条路径,路径发现结束。

实现从企业出口第一跳到入云最后一跳的3条路径覆盖。

AQM每隔一段固定时间进行一次路径发现,若拓扑不变化,后续已有的探测行为无变更;若拓扑发生变化,则停止后续探测行为,并基于新的拓扑进行更新。若路径发现失败,则停止本次探测。

路径发现阶段采用多路径智能发现算法提高ECMP(Equal-Cost Multipath Routing,等价多路径)测量精度,同时周期性更新拓扑,可以整体提升准确度,具体请参考多路径智能发现算法

慢速探测

路径发现阶段完成后,触发慢速探测。慢速探测阶段的探测基于ICMP报文实现,一个探测会话最多可以包含4条探测流,探测的目的地址分别为服务器地址和相应的最多3个Cloud Edge地址。每条探测流的报文大小为972字节(IPv4类型的Payload大小),以低频率、固定周期均匀发包。

优选服务器地址的测量结果作为慢速探测结果,当服务器地址长期不可达时,基于Cloud Edge地址的最差结果进行选择,最差结果的比较优先级为丢包率大于时延,即在不止一条探测流达到阈值的情况下,优先选择丢包率更大的流。当探测结果达到阈值时,触发快速探测。

快速探测

快速探测阶段的一个探测会话仅包含1条探测流,探测的目的地址为触发慢速探测阈值告警的地址。探测流的报文大小、发包频率(呈几何分布方式非均匀发包)以及DSCP等特性值均基于模拟真实应用特征设置,覆盖摄像头、屏幕共享以及音频三种类型,应用特征信息请参考应用特征提取。快速探测包括低精度和高精度两种测量模式,默认情况下为低精度模式,可以人工设置为高精度模式。在这种情况下,统计周期增大,但在提高测量精度的同时会导致CPU冲高和更多的带宽占用。

快速探测的质差探测结果选择规则与慢速探测相同。当探测结果达到阈值时,触发逐跳定位,同时该条探测流会开启一段时间的快速探测触发抑制。

逐跳定位

逐跳定位阶段可以基于路径发现结果+快速探测模型,实现网络故障的分段定界以及园区内故障的逐跳定位。

表1-2 分段定界+逐跳定位流程

探测类型

定界/定位结果

分段定界

界定故障发生在园区有线网络——广域网络——服务器最后一跳中的哪一段。
  • 探测ISP Router地址,界定园区内部是否发生故障的标准为:
    • 丢包率:取快速探测触发定位的丢包率阈值的50%作为标准。
    • 时延:与快速探测保持一致。
  • 探测Cloud Edge地址触发逐跳定位,同时已界定园区内部未发生故障,则故障发生在广域网络。
  • 探测服务器地址触发逐跳定位,同时已界定园区内部和广域网络均未发生故障,则故障发生在服务器最后一跳。

园区内逐跳定位

若定界为园区内发生故障,则启动逐跳定位。逐跳定位基于路径发现阶段发现的路径展开,探测每一条路径的每一跳地址是否可达。逐跳定位的探测模型与快速探测一样,考虑到探测性能因素,其统计周期小于快速探测,整体的测量精度会低于快速探测。

AQM有哪些关键技术?

探测地址自动识别

探测地址自动识别包含服务器地址获取和服务器地址删除两部分。

  • 服务器地址获取:服务器地址的获取支持静态配置和动态学习两种方式,具体实现如下所述。
    • 静态配置:用户提前获取业务流的特征信息,在下发AQM实例时人工指定服务器地址。
    • 动态学习:用户下发AQM实例时不指定服务器地址。在这种情况下,AQM可以利用应用识别模块精确区分不同应用,自动获取服务器地址。
  • 服务器地址删除:应用离线后,应用识别模块会主动告知用户,并将服务器地址删除。

多路径智能发现算法

当网络中存在ECMP场景时,目前通常采用的路径发现算法未考虑设备的逐流负载分担策略,会导致拓扑路径信息探测错误以及探测不全的问题。AQM采用独家多路径智能发现算法,该算法通过构造具有不同五元组(源地址、目的地址、源端口、目的端口、协议类型)的多条探测流实现路径发现,具有如下特点
  • 同一条探测流的负载分担哈希字段保持不变,以保证同一条探测流的报文走相同的转发路径,避免拓扑路径信息探测错误。
  • 在达到路径数量上限或拓扑收敛前,利用足够多的探测流尽可能发现负载分担的全部路径,避免拓扑路径信息探测不全。
传统路径发现算法与多路径智能发现算法的对比
传统路径发现算法与多路径智能发现算法的对比

应用特征提取

对于接收到的报文,队列中的丢包是随机发生的,当探测报文和应用报文同时要进入队列时,如果探测报文个数较少,队列“更不容易”丢弃探测报文,导致测量出的丢包率降低;同理,如果探测报文个数较多,则会导致测量出的丢包率升高。只有当探测报文与应用报文的个数相同时,在进行足够多数据统计的情况下,测量出的丢包率才能与应用的实际丢包率最接近。

基于上述,AQM的快速探测阶段根据不同应用和不同网络特征调整瞬时发包的并发包个数,通过模拟应用特征发包逼近真实的应用报文在网络中的传输过程,探测到更加精确的网络传输质量。

模拟真实应用报文特征
模拟真实应用报文特征

另外,还需要构建应用特征表覆盖知名应用,使用故障注入的方式模拟不同网络拥塞,提取应用关键特征。预置的TOP应用包括:华为云会议(WeLink_Meeting)、腾讯会议(TencentMeeting)、钉钉(DingTalk_VoIP)、小鱼易连(XiaoYuYiLian)、Zoom音视频(Zoom_Video)、Teams(MicrosoftTeams_VOIP)、Webex(WebEx_VoIP)、飞书(Lark_VoIP)。

词条统计
  • 作者: 陈婧怡
  • 最近更新: 2025-02-05
  • 浏览次数: 8826
  • 平均得分:
分享链接到: