交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
行业精选无线系列
物联网
安全
大数据安全平台
下一代防火墙
安全网关
检测管理安全
安全服务
安全云
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
电力能源
制造业
高教/职教
医疗卫生
交通
地产酒店文旅·连锁服务
公共安全
近日,工信部印发《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,意在加快人工智能从战略到落地,推动人工智能和实体经济深度融合。在新工业革命的背景下,大数据、计算力、算法等快速迭代,正驱动人工智能进入新阶段。2017年Q3,全球AI公司融资金额突破77亿美元,是2012年的70余倍。可能会有人说这是“泡沫”,而我更愿意相信这是人工智能发展的必然结果。
在AI技术的应用过程中,各个企业都在寻找能够更好支撑高性能计算的基础网络解决方案。在《数据中心基础网络架构成功实践及未来发展趋势》这篇文章中,我分享了如何设计一个稳定可靠的数据中心网络,下面我们再来探讨支撑AI应用的高性能无损网络应该如何设计。
前面提到大数据、计算力、算法等快速迭代,正驱动人工智能进入新阶段,而这些技术的实现对网络的低时延、无丢包、高性能这三个方面提出更高要求。
▲ AI应用的技术体系及对数据中心网络的要求
高性能和无丢包比较好理解,就是指网络带宽性能的提升以及网络中不存在拥塞导致的丢包。产生时延的环节较多,要实现端到端的低时延,需要多角度分析:
其中,光电传输时延和数据串行时延相对较小,且很难通过架构设计来优化,我们应重点关注主机处理时延和设备转发时延。在各大企业积极寻求的高性能计算方案中,基于以太网的RDMA(Remote Direct Memory Access)凭借其高性能和低成本优势逐渐取代InfiniBand而成为主流技术。RoCEv2(RDMA over Converged Ethernet)技术基于UDP协议,对于建设支撑AI应用的高性能无损以太网络变得尤为重要。
结合设备转发层面的时延优化手段,高性能无损网络的实现取决于两个要素:
综上,AI集群高性能计算和网络方案实践思路如下图所示:
▲ AI集群高性能方案关键技术组合
在这里,我以25G网络为例,结合业界主流产品形态,分享AI网络架构设计和实现思路。
主要设计理念:
网络架构设计:
1.中小型(集群规模1000台)
▲ 架构设计
架构特性:
2.中型(集群规模2000台)
▲ 架构设计
架构特性:
3.大型(集群规模2000-18000台)
▲ 架构设计
架构特性:
4.超大型(集群规模20000+台)
▲ 架构设计
架构特性:
在数据中心网络中,PFC和ECN功能将部署在Leaf和Spine设备上。PFC作用于设备互联端口,通过反压影响上游端口队列的发送速率,而ECN是作用在设备转发过程,最终影响的是数据流的发送方,通过降低某条数据流发送速率规避数据丢包。
从外卖订单和叫车订单的智能调度,到电商平台的智能推荐,再到人脸识别支付以及即将实现的全自动无人驾驶汽车量产,AI技术的应用已在方方面面影响着人们的生活和工作,让大家的生活越来越便捷、时间利用越来越合理。但是,这都离不开基础设施的支撑。锐捷网络将凭借在数据通信领域近20年的技术积累和行业经验,创新出更好的产品和解决方案,助力AI技术的蓬勃发展。