超融合数据中心网络关键技术


千行百业上云,多项变革推动数据中心网络向全以太化演进:

IT架构从本地集中式走向云端分布式,多节点之间大规模互联使用的是以太网。

计算单元去除PCIe的瓶颈限制,芯片直接出以太口来提供更高算力。

存储层面升级为全闪存(NVMe),用高带宽的以太网作为承载已成为业界共识。

以太网在开放性、业务部署和运维效率方面均具有明显优势。



1、IT 架构层面:从本地集中式走向云端分布式

当前一些新兴的应用,如区块链、工业仿真、人工智能、大数据等,基本都建立在云计算的底座中。近些年,企业各类业务上云的步伐不断加速,云可以提供按需自助服务、快速弹性伸缩、多租户安全隔离、降低项目前期投资等价值优势。

另外,在企业的数字化转型中,以金融和互联网企业为代表,大量的应用系统逐渐迁移到分布式系统上,也就是通过海量的 PC 平台来替代传统的小型机。这么做带来了高性价比、易扩展、自主可控等好处,但分布式系统架构同时也带来了服务器节点之间大量的网络互通需求。

以太网已经成为云化分布式场景中的事实网络标准:
  • 以太网已具有很高的开放性,可以与各种云融合部署、可被云灵活调用管理。
  • 以太网具有很好的扩展性、互通性、弹性、敏捷性和多租户安全能力。
  • 以太网可以满足新业务超大带宽的需求。
  • 以太网从业人员多,用户基础好。

而传统数据中心高性能计算使用的 IB 网络,以及集中式存储使用的 FC 网络,生态封闭,资源割裂,演进缓慢,已无法匹配云化的发展诉求。根据 IDC 数据显示,近年来 FC IB 市场逐步萎缩,数据中心的云化趋势助长了对以太网的需求,以太网是当前以及未来主要的数据中心内部网络互联技术。

2、计算层面:CPU/GPU 出以太接口提升性能

以人工智能为代表的一系列创新应用正在快速发展,而人工智能后台算法依赖海量的样本数据和高性能的计算能力。为了满足海量数据训练的大算力要求,一方面可以提升 CPU 单核性能,但是目前单核芯片工艺在 3nm 左右,且成本较高;另外一方面,可以叠加多核来提升算力,但随着核数的增加,单位算力功耗也会显著增长,且总算力并非线性增长。据测算,当 128 核增至 256 核时,总算力水平无法提升 1.2倍。

随着算力需求的不断增长,从 P 级(PFLOPS)向 E 级 (EFLOPS)演进,计算集群的规模不断扩大,对集群之间互联的网络性能要求也越来越高,这使得计算和网络深度融合成为必然。

在计算处理器上,传统的 PCIe 的总线标准由于单通道传输带宽有限,且通道扩展数量也有限,已经无法满足目前大吞吐高性能计算场景的要求。当前业界的主流是在计算处理器内集成 RoCERemote Direct Memory Access over Converged Ethernet,基于融合以太的远程内存直接访问协议)以太端口,从而让数据通过标准以太网在传输速度和可扩展性上获得了巨大的提升。

这里的 Remote Direct Memory AccessRDMA)是相对于 TCP 而言的,如下图所示,在服务器内部,传统的 TCP 协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在 AI 数据运算这类微秒级系统中,TCP 协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的 CPU 资源越来越地多被用于传输数据。

RDMA 允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近 1μs。同时,RDMA 允许接收端直接从发送端的内存读取数据,极大地减少了 CPU 的负担。


在 高 性 能 计 算 场 景 中 , 当 前 有 两 种 主 流 方 案 来 承 载 RDMA :专用 IBInfiniBand)网络和以太网络。然而,IB 网络采用私有协议,架构封闭,难以与现网大规模的 IP 网络实现很好的兼容互通,同时 IB 网络运维复杂,OPEX 居高不下。用以太网承载 RDMA 数据流,即上文提到的 RoCE,已应用在越来越多的高性能计算场景。

3、存储层面:升级为全闪存 NVMe 接口

新业务对海量数据的存储和读写需求,催生了存储介质的革新,由 HDDHard Disk Drive,机械硬盘)快速向 SSDSolid-State Drive,固态硬盘)切换,这带来了存储性能近 100 倍的提升。在此过程中,出现了 NVMeNon-Volatile Memory express,非易失性内存主机控制器接口规范)存储协议,NVMe 极大提升了存储系统内部的存储吞吐性能,降低了传输时延。

相比而言,原来承载存储业务的 FC 网络,无论从带宽还是时延上,均已经成为当前存储网络的瓶颈。完成革新后的全新存储系统,需要一个更快、更高质量的网络。为此,存储与网络从架构和协议层进行了深度重构,新一代存储网络技术 NVMe over Fabric(简称 NVMe-oF)应运而生。NVMe-oF NVMe 协议应用到服务器主机前端,作为存储阵列与前端主机连接的通道,可端到端取代 SAN 网络中的 SCSISmall Computer System Interface,小型计算机系统接口)协议。

NVMe over Fabric 中的“Fabric”,是 NVMe 的承载网络,这个网络可以是FCTCP RMDA。 

  • 对于 FC,其技术封闭、产业生态不及以太网;产业规模有限,技术发展相对迟缓,带宽不及以太网;从业人员稀缺、运维成本高、故障排除效率低。
  • 对于 TCP,在追求高应用性能的网络大潮中,RDMA 替换 TCP 已成为大势所趋。
  • 对于 RDMA,主流技术是 RoCERDMA over Converged Ethernet),即 NVMe over RoCE,他是基于融合以太网的 RDMA 技术来承载 NVMe

综上所述,基于以太网的 RoCE FC 性能更高(更高的带宽、更低的时延),同时兼具 TCP 的优势(全以太化、全 IP 化),因此 NVMe over RoCE 作为新一代存储网络已经脱颖而出,成为业界 NVMe-oF 的主流技术。

4、网络运维层面:部署与运维的全方位升级

在数据中心网络,当前存在几个较为突出的问题与挑战:

  • 管理难:数据中心网络里常常存在多个厂商的不同设备,接口不统一,很难统一管控。
  • 易出错:新业务的下发或老业务的变更,工作流程复杂,往往涉及多部门联动设计、调测,人工操作不仅效率低,而且容易出错。
  • 定位慢:如果发生异常,据统计,故障的定位平均时长达 76 分钟,严重影响业务的连续性,给企业带来损失。这些都呼唤一个全新的数据中心网络的到来。

HPC 计算节点之间传输的数据量大,时延要求严格,当网络有丢包或时延较高时,就会导致网络拥堵,高性能计算集群的整体效率大幅降低,即便增加计算节点也无济于事。据统计,网络 0.1%的丢包将造成算力下降 50%。华为超融合数据中心网络,面向高性能计算场景提供全以太 HPC 网络。

智能无损网络系列技术

目前使用 RoCEv2 来承载以太网的 RDMA 流量。华为超融合数据中心网络,使用基于 iLossless 智能无损算法的一系列技术来构建智能无损以太网络,通过多个技术的组合,真正解决传统以太网络拥塞丢包的问题,为RoCEv2 流量提供“无丢包、低时延、高吞吐”的网络环境,满足 RoCEv2 应用的高性能需求。


流量控制类技术

流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端设备有足够资源来接收流量,防止设备端口在拥塞的情况下出现丢包。华为提供了 PFC 死锁检测和死锁预防,提前预防 PFC 死锁的发生。

PFCPriority-based Flow Control,基于优先级的流量控制)是一种有效避免丢包的流量控制技术,是无损网络的基础。配置 PFC 功能的队列为无损队列,用于承载丢包敏感的业务流;没有配置 PFC 的队列被称为有损队列,用于承载可容忍一定丢包的业务流。然而,当多个设备之间因为环路、服务器网卡故障等原因同时出现拥塞,各自端口缓存消耗超过 PFC 触发门限值,相互发送 PFC 反压帧,同时又相互等待对方释放资源时,会导致所有设备上的数据流都永久阻塞,这种网络状态称为 PFC 死锁。为了解决 PFC 死锁的问题,智能无损网络提供了 PFC 死锁检测和死锁预防功能。

PFC 死锁检测:通过对 PFC 死锁进行全程监控,当设备在死锁检测周期内持续收到 PFC 反压帧时,认为可能出现了 PFC 死锁现象,此时会让该端口不响应PFC 反压帧一段时间;如果连续几个周期内仍然检测到大量 PFC 反压帧,则认为出现了 PFC 死锁,此时会关闭 PFC 功能,保护应用。


PFC 死锁预防:通过识别易造成 PFC 死锁的业务流,修改队列优先级,改变 PFC反压的路径,让 PFC 反压帧不会形成环路,从而避免 PFC 死锁的发生。

拥塞控制类技术

拥塞控制是一个全局性的过程,目的是让网络能承受现有的网络负荷,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。在拥塞控制过程中,华为提供了 AI ECNiQCNintelligent Quantized Congestion Notification)、ECN Overlay,解决了传统 DCQCN 存在的问题。


网络与与存储协同技术

存储系统为了存储大量的数据,往往需要管理数量庞大的主机,并且存在新主机陆续接入网络设备的情况。为了让智能无损网络技术更好的服务于存储系统,华为提出了 iNoFIntelligent Lossless NVMe Over Fabric,智能无损存储网络)技术,在网络设备上建立 iNoF 网络域后,域内所有网络设备都可以第一时间感知到接入主机的变化,从而可以将信息反馈给各个智能无损网络功能去智能调整相关配置,最终使网络达到低时延、无丢包和高吞吐的性能。同时,iNoF 还可以将主机信息通告给存储系统,可以协助存储系统管理主机。


网络与计算协同技术

网算一体功能是指在交换机可以支持的计算能力范围内,将集合通信的部分计算操作从服务器转移到网络侧设备交换机上,同时完成网络数据转发与高性能数据计算功能。



网算一体功能避免了在服务器之间多次发送数据,减少了服务器集群间的通信量,从而降低了 HPC 小字节场景下的网络时延,提升了计算效率。


多云协同技术

多云协同是指在私有云与公有云保持内在自治的条件下,在私有云与不同的公有云之间实现业务层面的统一管理和运维,可实现跨云业务部署和流量互通。


1. 针对突发业务,临时扩容业务能力:企业将应用部署于私有云内时,为应对季节性或突发事件引起的业务高峰需求,临时租用公有云资源,快速提升业务响应能力和计算处理能力。


2. 灾难恢复:用户可以将备用的业务数据放在公有云上,借助公有云提供商的技术优势、灾备经验、运维管理等资源,快速实现数据灾难恢复,保障服务的连续性。在私有云数据中心发生重大灾难时,用户可以在公有云端利用云主机快速切换,将备份数据拉起,大幅降低 RTO,实现业务高可用。


3. 数据备份:数据备份的目的是把某一时间的数据或应用保存在一个安全可靠的地方。通常的场景是应用负载运行在公有云或私有云上,而数据备份放在私有云或公有云里,以达到数据安全的目的。


4. 前端服务靠近用,后端集中处理:对于拥有多个分支的企业,尤其是跨国企业来说,如果业务都由总部数据中心来集中处理,随着业务量的增加,总部的处理能力和接入带宽将明显成为瓶颈。通过混合云方案,将前端服务部署在公有云上,利用公有云多 Region CDNContent Delivery Network,内容分发网络)的优势使服务尽量靠近最终用户,后端仍部署在总部私有云中。前端处理完成后,只需要少量的前后端交互访问即可完成整个业务处理。


5. 开发测试生产部署:对一个应用而言,其开发测试过程一般需要灵活快捷的环境搭建,而且期间经常重构,这时公有云是个不错选择。而一旦应用正式上线,则希望运行在安全稳定的环境中,那时就会考虑部署在私有云。在这种情况下,同一应用在不同阶段相互之间独立,没有直接联系。通过多云协同技术,利用DevOps 流程与工具,就可同时获得公有云灵活快捷和私有云安全稳定的好处。


6. 私有云应用访问公有云服务:私有云内部署的应用,可使用私网 IP 通过 VPN 或专线访问公有云提供的服务,简化本地应用系统的开发与部署。




注意:转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请联系QQ:86662817处理,谢谢。
1、本站目前拥有近 1000+ 精品收费资源,现在加入VIP会员即可全部下载。
2、本资源部分来源其他付费资源平台或互联网收集,如有侵权请联系及时处理。
祺智 » 超融合数据中心网络关键技术

发表评论

加载中~

加入本站VIP会员订阅计划,海量资源免费查看

目前为止共有 3810位优秀的VIP会员加入! 立刻加入VIP会员
本站访客:51443
one-ie
one-ie
已为您复制好微信号,点击进入微信