本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索
首页 信息速查 IP知识百科 在线课堂

什么是Service Telemetry?

Service Telemetry提供了基于RDMA业务的网络时延测量和在网可视化的技术,可以实现I/O质量可视功能和吞吐量可视功能,该技术适用于IPv4 RoCEv2报文。通过测量网络/存储/计算节点在一个存储IO内的分段时延和RoCEv2报文的传输耗时、有效吞吐率、重传比例,支撑网络监测以及问题定界。

为什么需要Service Telemetry?

随着智能时代的到来,各种业务对海量数据的存储和读写需求日益增大,RDMA业务存在以下运维挑战:

  1. 网络无法主动感知由拥堵等突发问题导致的业务性能下降或抖动,只能被动等待业务部门报障。
  2. 当存储IO时延、IOPS(Input/Output Per Second,每秒钟系统能处理的读写请求数量)性能指标恶化时,难以定界问题出现在哪里。
  3. 分钟级采集精度导致接口计数无差异,无法感知NPU的实际吞吐差异。
  4. PFC计数不能反应拥塞程度以及对吞吐的影响。
  5. 网卡、静默丢包类问题难发现,难以定界问题出在哪里。
  6. 场景化的排障最佳实践缺乏,导致排障时间过长。

为了解决以上挑战,华为公司推出Service Telemetry技术,突破了网络监控的传统局限,提供了基于RDMA业务的I/O质量可视功能和吞吐量可视功能。精准监测并分析I/O时延数据、吞吐量数据,快速识别存储业务性能的下降和网络拥塞程度,为网络问题的快速判断、网络质量优化调整提供了基础,有力地支撑了智能无损网络更广阔的发展。

Service Telemetry是如何工作的?

I/O质量可视

业务流程

如下图所示,Service Telemetry的业务流程涉及以下模块:

Service Telemetry工作流程
Service Telemetry工作流程
  1. 分析呈现层(iMaster NCE-FabricInsight):呈现业务流量基于IO的性能指标;通过Netconf接口将配置内容下发到设备。
  2. 设备测量统计层(交换机):
    • 计算侧端口:业务报文由计算侧端口进入/流出测量设备,交换机识别特征报文并对其进行IO测量和时延分解,将测量统计结果上报分析器。
    • 存储侧端口:业务报文由存储侧端口进入/流出测量设备,交换机识别特征报文并对其进行IO测量和时延分解,将测量统计结果上报分析器。

时延分解方案

Service Telemetry基于IO交互流程,对往返特征报文做关联性匹配,定义IO时延分解对象并进行测量。其时延分解方案如下图所示:

读写IO报文交互过程
读写IO报文交互过程
其中:
  • DAL(Data Access Latency):存储设备访问时延,用于排查存储侧问题,读写操作DAL单独测量。
  • DPL(Data Preparation Latency):主机数据准备时延,用于排查计算侧侧问题,只有写操作涉及DPL。
  • IOL(IO Latency):IO时延,计算侧/存储侧总时延。
  • 网络RTT(Round-Trip Time):网络往返时间,区分读和写操作。由iMaster NCE-FabricInsight计算网络RTT=IOL1-IOL2。

吞吐量可视

业务流程

如下图所示,吞吐量可视的业务流程涉及如下模块:

吞吐量可视系统模型
吞吐量可视系统模型
  1. 分析呈现层(iMaster NCE-FabricInsight):呈现业务流量的吞吐量性能;通过NETCONF接口将配置内容下发到设备。
  2. 设备业务测量统计层(交换机):业务报文由服务器A进入/流出服务器B,开启吞吐量可视功能后的设备A/设备B,识别RoCEv2报文并测量吞吐量可视指标(单次RDMA传输耗时、RDMA传输的有效吞吐率、RDMA传输发起重传的比例),将测量统计结果上报分析器。

吞吐量监测方案

一次RDMA传输的报文交互过程如下图所示,Sender通过设备Device向Receiver发送RoCEv2报文。

报文交互过程
报文交互过程

吞吐量可视功能主要分析以下指标:

  1. FCT:Flow Completion Time。FCT是指完成单次RDMA传输的耗时。FCT=设备Device收到最后一个数据包的时间-设备Device收到第一个数据包的时间。单位为微秒。
  2. FET:Flow Effective Throughput。FET是指每秒钟RDMA传输的有效吞吐率。FET(bit/s)=有效吞吐量(bit) / FCT(微秒) x 106
  3. FNR:Flow NAK Rate。FNR是指RDMA传输发起重传的比例。FNR=重传数量(NAK个数 )/ RDMA message报文数(不包含重传的报文数量)。

Service Telemetry的典型应用场景

Service Telemetry的典型应用场景如下图所示,交换机支持基于端口使能service telemetry功能。在计算侧和存储侧的服务器接入端口上部署该功能,交换机之间的互联口上无需部署。

Service Telemetry典型应用场景
Service Telemetry典型应用场景

在业务应用过程中,存在两种常见的使用模式:

  

日常监控模式

维护或重保模式

部署位置

单点测量(计算侧接口

多点协同测量(计算侧接口、存储侧接口

方案

单点测量+端口轮询方案

采用端口轮询方案限制上送报文量

多点测量+感兴趣流方案

通过减少流的数量来限制上送报文量

业务指标

  • 网络RTT测量:不支持
  • 在计算Leaf上测量IOL、DPL、DAL,此时的DAL不仅包括存储侧处理时延还包括网络时延,DAL有问题则解读为疑似存储问题。
  • 网络RTT测量:支持
  • 在计算Leaf上测量IOL、DPL,存储Leaf上测量DAL,采用就近测量方式,测量结果更准确。

适用场景

日常监控:全流监控(按端口组时分复用,全流不全包)

对感兴趣流全程监控(针对感兴趣流的全流全包)

词条统计
  • 作者: 钱津辰,印蓉蓉
  • 最近更新: 2025-07-07
  • 浏览次数: 4372
  • 平均得分:
分享链接到: