什么是CloudFabric?
CloudFabric是华为推出的数据中心网络SDN解决方案,该方案由华为数据中心旗舰级核心交换机CloudEngine 16800/12800系列、高性能的盒式交换机CloudEngine 9800/8800/7800/6800/5800系列,配合华为数据中心控制器iMaster NCE-Fabric、智能网络分析平台iMaster NCE-FabricInsight以及安全解决方案HiSec,为客户提供覆盖数据中心网络的“规划建设 → 业务发放 → 运维监控 → 变更优化”全生命周期的极简运营体验;对网络故障实现发现、分析、隔离的智能闭环;同时CloudFabric还能满足数据中心全以太网络演进,可融合计算专网与存储专网,实现以太零丢包,提升计算和存储性能。
我们为什么需要CloudFabric?
数据中心网络作为ICT关键的基础设施,在数字化转型过程中, 大量新型产业和新ICT技术的不断涌现,对传统数据中心提出新的要求。
- 业务快速上线,网络需要池化与自动化
业务种类繁多,策略各异,传统数据中心业务部署工作量大,效率低。
- IT领域的变革,驱动数据中心网络全以太化演进
- IT架构由集中式转变为分布式,大规模节点之间的互联使用以太网。
- 计算单元直接出以太口,配合RoCE来提供CPU/GPU的以太互联,提升算力。
- 存储介质从机械硬盘向全闪存升级,存储节点内部采用NVMe,对外采用大带宽的RoCE网络互联。
IT领域的变革驱动数据中心网络全以太化演进数据中心正在向全以太网演进,但是传统以太网因为丢包、时延大等,无法满足上述要求。
- 应用动态随迁,流量激增,数据中心运维需要智能化
随着数据中心规模的扩大、业务策略复杂,以及各种虚拟化技术、云化技术交织使用,使运维难度大大提升,传统的运维经验难以应付。
基于如上场景和需求,华为公司推出了CloudFabric超融合数据中心网络解决方案:
- 实现网络业务的全生命周期自动化,业务TTM(Time to Market,上市时间)效率提升90%。
- 实现全无损以太网络,满足高性能计算零丢包的要求;实现网络长距传输零丢包,满足同城双活全以太存储网络的要求。
- 实现故障的快速感知、智能分析和快速闭环,还可实现大量故障场景的主动故障预测。
CloudFabric有哪些好处?
全生命周期自动化,实现网络即服务,业务秒级发放
当前,很多数据中心网络已通过SDN实现了网络配置的自动化。但是业务设计规划、技术评审、效果验证等都需要人工执行,涉及多个部门多个角色,整体耗时长、效率低,成为业务发放的瓶颈。
CloudFabric解决方案通过引入智能算法:
- 在设计环节:将全网影响设计的因素分解到资源、质量、可靠性三个评估维度,实现网络方案的秒级生成与推荐。
- 在验证环节:将网络拓扑、设备配置、流量信息进行叠加计算,实现全网海量配置的秒级校验。
CloudFabric从而可以在规划建设新数据中心、业务发放、运维监控、变更优化四个阶段,实现网络的全生命周期自动化管控。
构建全以太数据中心网络,释放算力、提升存储性能
CloudFabric解决方案面向高性能计算场景提供了全以太的HPC(High-performance Computing,高性能计算)网络。它基于华为独创的iLosslessTM智能无损交换算法,攻克了以太网40多年的丢包难题,实现了100%吞吐下的零丢包,满足HPC业务所需的极致网络性能,实现规模不变,算力倍增。
CloudFabric解决方案面向存储场景提供双活全以太存储网络。在短距iLosslessTM智能无损交换算法的基础上,提出了iLossless-DCI算法,解决了长距无损丢包的难题。华为的全以太替代FC(Fibre Channel,光纤通道)的方案已经有多个成功商用案例,从32G提升到400GE,带宽提升了10倍,存储的IOPS(Input/output Operations Per Second,每秒进行读写操作的次数)提升87%。
全网智能运维,保证业务7×24小时在线
CloudFabric中,通过Telemetry技术实现网络中多维度数据信息的采集,并依托智能分析平台对全网运维数据进行分析,不仅可实现各类运维数据的可视化,还可提供以下几点关键运维能力。
- 网络健康评估:基于设备、网络、协议、Overlay、业务,构建了一个多维度的评估体系,结合Telemetry机制,整合网络中的配置数据、表项数据、日志数据、KPI性能数据,实时发现网络中各个层面的问题和风险;检测范围覆盖工作状态异常、网络容量异常、器件亚健康、业务流量交互异常等范围;从而帮助运维人员“看网识网”,直观地呈现全网整体体验质量。
- 快速定位故障根因:基于知识图谱,可实现对数据中心网络已知故障的1分钟发现、3分钟定位、5分钟修复;也可对一些未知故障进行学习和故障推理,帮助运维人员深度探索未知故障的根因。
- 业务变更自动保障:通过采集配置变更后的网络数据,建模验证网络实际转发行为是否与用户业务意图一致。用户可以通过验证结果辅助确认变更是否符合预期、是否引入问题等等,并且对于验证失败的意图,可以进一步定位回溯失败原因,从而极大提升网络变更场景下的运维保障效率。同时,也可对重要业务周期性自动进行验证,以保证重要业务的正常可靠运行。
CloudFabric由哪些部件组成?
CloudFabric方案架构
华为CloudFabric数据中心网络解决方案的架构如下图所示,分为服务器层、Fabric网络层、资源管理层和应用层。
CloudFabric数据中心网络解决方案架构示意图
服务器层
用于承载应用程序的服务器资源,形态上有虚拟机、容器、物理机。这一层的资源并不由CloudFabric解决方案提供。
对象 |
说明 |
---|---|
虚拟机 |
通过计算虚拟化技术完成对物理服务器资源的抽象和虚拟管理,并通过虚拟机的形态对外提供业务承载。 |
容器 |
容器是应用层的抽象,它将代码和依赖关系打包在一起。多个容器可以在同一台机器上运行,并与其他容器共享操作系统内核,每个容器在用户空间中作为独立进程运行。 |
物理机 |
传统的非虚拟化的服务器。 |
Fabric网络层
由网络设备如交换机、防火墙、负载均衡器等组成,为服务器提供数据中心内部互联互通的网络服务、为服务器提供访问数据中心外部资源的网络服务。
资源管理层
用于将数据中心的存储、计算、网络资源进行抽象,并统一管控。
对象 |
说明 |
---|---|
iMaster NCE-Fabric |
华为的数据中心控制器(详见华为官网的iMaster NCE-Fabric产品介绍),南向管理网络设备,北向与资源管理层的平台类系统对接,完成业务全生命周期的自动化部署和网络资源管理。其中华为防火墙由安全控制器SecoManager管理,SecoManager作为iMaster NCE-Fabric上的一项服务。 |
MDC |
Multi-DataCenter-Controller,即多数据中心控制器(详见华为官网的MDC产品介绍),当客户拥有多个数据中心,每个数据中心作为一个资源域,内部署独立的iMaster NCE-Fabric时,可选择MDC来对多个数据中心的网络业务进行统一编排和管理。 |
iMaster NCE-FabricInsight |
华为FabricInsight网络智能分析平台(详见华为官网的iMaster NCE-FabricInsight产品介绍),实时感知Fabric的状态、应用的行为状态,及时发现网络与应用的问题,可进行健康度检查,分析网络故障的根因。 |
HiSec Insight |
华为的基于大数据的APT防御产品HiSec Insight高级威胁分析系统(原名CIS,详见华为官网的HiSec Insight产品介绍),能发现网络中的潜在威胁和高级威胁,实现企业内部的全网安全态势感知,同时结合华为HiSec解决方案可完成威胁的处置闭环。 |
Huawei Cloud Stack |
华为云Stack解决方案(详见华为官网的Huawei Cloud Stack产品介绍),采用FusionSphere OpenStack作为云平台,对各个物理数据中心资源进行整合;采用ManageOne作为数据中心管理软件,对多个数据中心提供统一管理。华为云Stack提供计算、存储、网络、安全、灾备和PaaS(平台即服务)等丰富的云服务。 |
计算虚拟化管理平台 |
对计算资源完成虚拟化和管理的平台,如vSphere vCenter。 |
容器平台 |
对计算资源进行容器化管理的平台,如开源Kubernetes、开源Docker等。 |
OpenStack |
开源社区的云平台。 |
CloudFabric的模型
为了实现用户对业务网络的诉求,在整个CloudFabric解决方案中需要进行业务模型的抽象,同时需要基础物理网络的支撑。如下图所示,CloudFabric的模型分为物理模型、逻辑模型、应用模型,每个模型的说明参见下表。
CloudFabric的物理模型、逻辑模型、应用模型
层级 |
功能说明 |
举例 |
---|---|---|
应用模型 |
租户:根据业务诉求,数据中心管理员可创建一个或多个租户,并为每个租户指定网络资源的配额。不同租户之间的业务默认是隔离的。 |
可为一个公司分配一个租户账号;也可以为一个公司内每一个部门/每一类业务分配一个租户账号。 |
VPC:租户的管理员可以根据业务需求,创建一个或多个VPC(Virtual Private Cloud)。VPC之间默认是隔离的,但均占用该租户的资源配额。 |
可为不同的部门分别创建不同的VPC;或者为不同种类的业务创建不同的VPC。 |
|
逻辑模型 |
在每一个VPC内部,就需要根据业务对网络的实际诉求,来配置具体的网络参数。逻辑模型中常见的逻辑元素有:
|
|
物理模型 |
Fabric网络是由一组Spine及Leaf节点设备互联组成,也包括网络中的VAS设备,是物理网络的概念,实现一张物理网络供多个租户同时使用。 |
在控制器上可针对具体的设备资源创建一个或多个Fabric资源池,如Fabric1、Fabric2。 |
CloudFabric的运营场景有哪些?
在不同的运营场景中,用户的业务管理流程与方式不同。CloudFabric的主要运营场景有云网一体化、计算联动、机架出租,下面分别进行介绍。
云网一体化场景
CloudFabric解决方案中的云网一体化业务场景逻辑示意图如下图所示,由云平台提供存储、计算和网络的统一管理界面,其中网络控制器与云平台对接。
CloudFabric的云网一体化业务场景逻辑示意图
业务管理员通过云平台界面统一创建存储资源、计算资源和网络资源:
- 业务管理员通过云平台将网络资源分配给指定的业务或应用。云平台将业务下发指令传递给网络控制器,再由网络控制器将配置明细自动下发至设备,无需人工配置。
- 业务管理员通过云平台进行计算和存储资源的创建、删除和迁移等操作。云平台、网络控制器、网络设备和服务器之间自行进行协调交互,无需人工干预。
计算联动场景
当计算业务管理系统庞杂,或计算管理和网络管理融合度不高又无法构建统一云平台的情况下,适用于计算联动场景。
CloudFabric解决方案中的计算联动场景逻辑示意图如下图所示,控制器对接计算虚拟化平台,不对接云平台,由控制器和计算虚拟平台一同承担业务下发职责,实现计算与网络协同发放。
计算联动场景逻辑示意图
业务发放包括以下两个部分:
- 网络业务发放:网络管理员通过控制器编排网络业务,控制器会将网络配置通过接口下发给计算虚拟化管理平台(VMM)。
- 计算业务发放:计算管理员通过VMM进行虚拟机的创建、删除和迁移等操作时,VMM将虚拟机上线、下线等信息通知给控制器,由控制器下发对应接入端口的配置,从而完成端到端业务配置上线。
机架出租场景
机架出租从字面上理解是将机架资源出租给用户,展开来讲,被出租的资源不只是机架,还有机房、主机,除了物理资源还有安全、负载均衡、公网IP地址、接入带宽等增值服务, 出租方以运营商为主,还有一些专业ISP企业。
CloudFabric解决方案中的机架出租场景的逻辑示意图如下图所示。
机架出租场景逻辑示意图
本场景中控制器不对接云平台、不对接计算虚拟平台,网络管理员直接使用控制器业务编排页面来控管多个中心机房的网络业务。中心机房可以下联一个或多个边缘机房,实现机房资源的整合与最大化利用。
场景间对比
以上三种场景之间的对比参见下表。
场景 |
适用场景 |
特点 |
约束 |
---|---|---|---|
云网一体化场景 |
当企业的网络部门和IT部门已经有机结合,并具备一定技术实力,可使用本场景。 |
存储、计算、网络资源由统一的平台管理,提供端到端云网协同方案。 |
用户需具备一定的技术实力。 |
计算联动场景 |
企业内部网络部门与IT部门没有进行融合,但业务部署与管控上想要实现一定程度的协同自动化。 |
网络计算部署自动化程度高,网络先行不易出错。 |
对第三方VMM的版本有要求,网络与计算两者耦合,需要先发放网络配置再发放虚拟机资源。 |
机架出租场景 |
|
网络部署简单高效,无第三方依赖,计算网络解耦部署。 |
只完成网络部分的自动化部署,同计算的协同需要离线独立操作。 |
CloudFabric的全以太智能无损网络的应用场景有哪些?
随着数据中心内IT架构、计算资源和存储资源的技术演进,数据中心网络由原先的多协议模式向全以太化演进。
CloudFabric 3.0超融合数据中心网络解决方案,可提供全无损的以太网络,满足数据中心网络全以太化演进,可以应用在集中式存储、分布式存储、HPC高性能计算、AI训练等典型场景,可参考百科:超融合数据中心网络。
关于智能无损相关特性原理和配置命令的相关介绍,请查看华为CloudEngine系列数据中心交换机产品文档中的“配置 > 配置指南 > 智能无损网络配置”。
- 作者: 张帆
- 最近更新: 2023-12-01
- 浏览次数: 25256
- 平均得分: