本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索
首页 信息速查 IP知识百科 在线课堂

什么是AFR?

AI大模型训练催生出海量数据传输需求,对网络运力提出了更高的要求。AFR(Adaptive Flow Repathing,自适应流重路径)是一种流级负载均衡技术,通过实时采集和分析流信息,自适应调整流量转发路径,实现网络全局负载均衡,维持网络高吞吐,保障AI大模型训练效率。

为什么需要AFR?

当前,AI大模型已在各行业深入应用,越来越多的企业选择租用算力的方式来进行模型训练。这种方式下,企业需要通过广域网络传输海量数据样本到智算中心来进行计算,对网络吞吐率提出了更高的要求。

训练数据和样本传输产生的流量呈现大象流特征,与普通流量相比,大象流具有流数少、单流带宽大、持续时间长的特点,单流带宽可达到10Gbps。大象流的出现会导致网络负载不均衡,流量拥塞,网络吞吐率大幅下降。

表1-1 大象流与普通流量特征对比

普通流量

大象流

流数多

流数少

单流带宽小

单流带宽大

持续时间短

持续时间长

传统运营商网络通过部署SRv6 TE Policy进行流量调优以实现网络负载均衡,但由于无法实时感知和统计各路径的流量大小,只能根据预定义权重分配流量,调优效果有限,网络负载不均现象仍然存在,无法支撑多租户并发的训练任务,用户等待时间长,同时由于数据样本无法及时上传,造成算网资源浪费。

大象流造成网络流量拥塞
大象流造成网络流量拥塞

为了应对上述问题,华为提出了AFR技术。

AFR是如何工作的?

与传统流量调优技术相比,AFR的优势在于能够识别流量大小,对数据流进行精细化调度,其工作原理如下:

一、弹性最大通量算路:通过iMaster NCE-IP纳管整网设备,基于AI算法以网络通量最大为目标进行路径规划,实现网络运力最大化。

二、大象流智能识别:部署AFR后,设备能够精准识别大象流,实时采集流信息并上报给iMaster NCE-IP。

三、基于流的自适应调优:iMaster NCE-IP实时监测网络负载,根据各个路径上的负载情况动态调整业务流的转发路径,实现网络全局负载均衡,保障网络高吞吐。

当网络中出现大象流导致某条路径上部分链路拥塞时,iMaster NCE-IP会重新规划流量转发路径,将部分流量调整至其他路径,保证各路径上负载均衡,网络维持高吞吐。在多用户并发训练任务时,能够保证训练数据和样本的上传效率。

AFR的应用场景

AFR流级负载均衡技术能够实现网络高吞吐,主要应用于企业入算场景,包括数据快递场景和存算分离拉远训练场景。

数据快递

在数据快递场景下需要保证TB级样本数据快速入算,AFR通过对流量的自适应流调度实现网络负载均衡,整网运力提升至95%,实现TB级数据分钟达。

数据快递
数据快递

存算分离拉远训练

部分行业数据敏感,需要保证数据不落智算中心存储区,因此需要进行存算分离拉远训练。AFR联合华为SPFC(Subscriber Priority-based Flow Control)技术,算效可达97%,全面保障AI大模型训练效率。

存算分离拉远训练
存算分离拉远训练
词条统计
  • 作者: 白鹤慧
  • 最近更新: 2025-07-09
  • 浏览次数: 5097
  • 平均得分:
分享链接到: