IP知识百科 > AI ECN

什么是AI ECN？

AI ECN（Artificial Intelligence Explicit Congestion Notification）是一种根据现网流量模型，智能地调整无损队列的ECN门限的功能，可以保障零丢包下的低时延和高吞吐，以使无损业务达到最优性能。

AI ECN和ECN的区别是什么？

目前RoCEv2（RDMA over Converged Ethernet version 2）网络应用最广泛的拥塞控制机制，是在网络设备上发现拥塞后，由网络设备向接收端服务器发送携带拥塞标记的报文，接收端服务器随后向发送端服务器发送CNP拥塞通知报文（Congestion Notification Packets，简称CNP报文），以通知发送端服务器降低发送报文的速率，从而缓解拥塞。

拥塞控制机制示意图

AI ECN和ECN均采用该机制进行拥塞控制，但传统的ECN功能需要用户手动设置ECN门限，设备通过缓存是否超过ECN门限来判断是否发生拥塞。对于需要无丢包传输的无损业务，这种手动配置ECN门限的方式无法适应队列中不断变化的缓存空间，也难以兼顾网络中特征各异的流量模型。

AI ECN可以很好的解决上述问题。无损队列的AI ECN功能结合了智能算法，可以依据现网流量模型进行AI训练，根据队列长度等流量特征动态调整ECN门限，进行无损队列缓存的精确管控，保障整网最优性能。

为什么需要AI ECN？

为了实现对无损队列的流量控制，减缓无损队列的缓存拥塞，可以为无损队列设置两种缓存门限——ECN门限和PFC门限。当设备的出队列缓存达到ECN门限时，会通知发送端服务器进行降速；当设备的入队列缓存达到PFC门限时，会通知上游设备停止发送流量。实际上，如果出方向一直不拥塞，入方向是很难拥塞的，报文到达后会被马上转发。为了保证无损业务的低时延和高吞吐，在发生拥塞时，一般通过先触发ECN门限通知降速来缓解拥塞，尽量避免触发PFC，以防发生断流。

ECN门限和PFC门限减缓拥塞示意图

由此可见，合理设置ECN门限对于保障零丢包下的低时延和高吞吐尤为重要。然而，网络中流量的大小和速率、以及设备缓存空间占用情况等都在不断变化，不同类型的流量也对ECN门限存在不同的要求，ECN门限的设置需要综合考虑多种因素，例如：

设备发送拥塞通知到服务器降速的时间差
从网络设备发现队列缓存出现拥塞触发拥塞标记，到发送端服务器感知到网络中存在拥塞降低发包速率，是需要一段时间的。在这段时间内，服务器仍然会按照原来的发包速率向设备发送流量，从而导致设备队列缓存拥塞持续恶化，最终触发PFC流控而暂停流量的发送。因此，需要合理设置ECN门限，使得ECN门限和PFC门限之间的缓存空间能够容纳拥塞标记之后到服务器降速之前这段时间发送过来的流量，尽可能的避免触发网络PFC流控。
兼顾时延敏感小流和吞吐敏感大流
- ECN门限设置偏高时，可以延缓触发拥塞标记，保障流量发送的速率和队列内用来吸收突发流量的缓存空间，满足吞吐敏感的大流的流量带宽。但是，在队列拥塞时，报文在缓存空间内排队，会带来较大的队列时延，对时延敏感的小流无益。
- ECN门限设置偏低时，可以尽快触发拥塞标记，通知服务器降速，从而使队列内的缓存空间维持在较低的缓存深度，减少报文排队，降低队列时延，对时延敏感的小流有益。但是，过低的ECN门限会影响吞吐敏感的大流，限制了大流的流量带宽，无法满足大流的高吞吐。

因此，为了适应现网中复杂多变的流量场景，兼顾时延敏感的小流和吞吐敏感的大流，AI ECN根据现网流量模型对网络流量变化进行动态预测，实时调整最优ECN门限，精确管控无损队列的缓存占用，保障RoCEv2流量的无丢包、低时延和高吞吐。

AI ECN是如何工作的？

AI ECN使用嵌入式AI进行智能计算，嵌入式AI是一个内置在设备中的AI功能通用框架系统，可以为AI ECN提供模型管理、数据获取和预处理功能，支持向AI ECN发送推理结果。如图所示，设备会对现网的流量特征进行采集并上送至AI ECN组件，AI ECN组件将根据嵌入式AI系统的推理结果，智能的为无损队列设置最佳的ECN门限，保障无损队列的低时延和高吞吐，从而使不同流量场景下的无损业务性能都达到最佳。

无损队列的AI ECN功能实现原理

网络设备内的转发组件会对当前流量的特征进行采集，比如队列缓存占用率、带宽吞吐、当前的ECN门限配置等，然后通过Telemetry技术将网络流量实时状态信息推送给AI ECN组件。
AI ECN功能启用后，将自动订阅嵌入式AI系统的服务。依据嵌入式AI系统，AI ECN组件收到推送的流量状态信息后，将智能的对当前的流量模型进行判断，识别当前的网络流量场景是否是已知场景。
- 如果该流量模型是嵌入式AI系统内已训练的模型，则判断当前网络流量场景为已知场景，AI ECN组件将根据嵌入式AI系统推理的最优结果，计算出与当前网络状态匹配的ECN门限配置，这种模式称为模型推理模式，由于其采用NN（Neural Network）算法，因此也称为NN模式。
- 如果该流量模型是嵌入式AI系统内未训练的模型，则判断当前网络流量为未知场景，AI ECN组件将结合启发式搜索算法，基于现网状态，在保障高带宽、低时延的前提下，对当前的ECN门限不断进行实时修正，最终计算出最优的ECN门限配置，这种模式称为启发式推理模式，由于其采用BBR（Bottleneck Bandwidth and RTT）算法，因此也称为BBR模式。
最后，AI ECN组件将最优ECN门限下发到设备中，调整无损队列的ECN门限。
对于获得的新的流量状态，设备将重复进行上述操作，从而保障无损业务的最佳性能。

参考资源

1AI ECN配置指南（CloudEngine 数据中心交换机）

2（eBook）智能无损网络（HPC场景）

词条统计

作者：冯媛媛
最近更新： 2024-02-26
浏览次数： 5661
平均得分：

页内导航

AI ECN和ECN的区别是什么？
为什么需要AI ECN？
AI ECN是如何工作的？

什么是AI ECN？

AI ECN和ECN的区别是什么？

为什么需要AI ECN？

AI ECN是如何工作的？

关于华为

如何购买

合作伙伴

资源

快速链接