什么是AFR?
AI大模型训练催生出海量数据传输需求,对网络运力提出了更高的要求。AFR(Adaptive Flow Repathing,自适应流重路径)是一种流级负载均衡技术,通过实时采集和分析流信息,自适应调整流量转发路径,实现网络全局负载均衡,维持网络高吞吐,保障AI大模型训练效率。
为什么需要AFR?
当前,AI大模型已在各行业深入应用,越来越多的企业选择租用算力的方式来进行模型训练。这种方式下,企业需要通过广域网络传输海量数据样本到智算中心来进行计算,对网络吞吐率提出了更高的要求。
训练数据和样本传输产生的流量呈现大象流特征,与普通流量相比,大象流具有流数少、单流带宽大、持续时间长的特点,单流带宽可达到10Gbps。大象流的出现会导致网络负载不均衡,流量拥塞,网络吞吐率大幅下降。
普通流量 |
大象流 |
|---|---|
流数多 |
流数少 |
单流带宽小 |
单流带宽大 |
持续时间短 |
持续时间长 |
传统运营商网络通过部署SRv6 TE Policy进行流量调优以实现网络负载均衡,但由于无法实时感知和统计各路径的流量大小,只能根据预定义权重分配流量,调优效果有限,网络负载不均现象仍然存在,无法支撑多租户并发的训练任务,用户等待时间长,同时由于数据样本无法及时上传,造成算网资源浪费。
大象流造成网络流量拥塞
为了应对上述问题,华为提出了AFR技术。
AFR是如何工作的?
与传统流量调优技术相比,AFR的优势在于能够识别流量大小,对数据流进行精细化调度,其工作原理如下:
一、弹性最大通量算路:通过iMaster NCE-IP纳管整网设备,基于AI算法以网络通量最大为目标进行路径规划,实现网络运力最大化。
二、大象流智能识别:部署AFR后,设备能够精准识别大象流,实时采集流信息并上报给iMaster NCE-IP。
三、基于流的自适应调优:iMaster NCE-IP实时监测网络负载,根据各个路径上的负载情况动态调整业务流的转发路径,实现网络全局负载均衡,保障网络高吞吐。
当网络中出现大象流导致某条路径上部分链路拥塞时,iMaster NCE-IP会重新规划流量转发路径,将部分流量调整至其他路径,保证各路径上负载均衡,网络维持高吞吐。在多用户并发训练任务时,能够保证训练数据和样本的上传效率。
AFR的应用场景
AFR流级负载均衡技术能够实现网络高吞吐,主要应用于企业入算场景,包括数据快递场景和存算分离拉远训练场景。
数据快递
在数据快递场景下需要保证TB级样本数据快速入算,AFR通过对流量的自适应流调度实现网络负载均衡,整网运力提升至95%,实现TB级数据分钟达。
数据快递
存算分离拉远训练
部分行业数据敏感,需要保证数据不落智算中心存储区,因此需要进行存算分离拉远训练。AFR联合华为SPFC(Subscriber Priority-based Flow Control)技术,算效可达97%,全面保障AI大模型训练效率。
存算分离拉远训练
- 作者: 白鹤慧
- 最近更新: 2025-07-09
- 浏览次数: 5097
- 平均得分:
导出PDF