产品
产品中心
< 返回主菜单
产品

交换机

交换机所有产品
< 返回产品
交换机
查看交换机首页 >

无线

无线所有产品
< 返回产品
无线
查看无线首页 >

云桌面

云桌面产品方案中心
< 返回产品
云桌面
查看云桌面首页 >

安全

安全所有产品
< 返回产品
安全
查看安全首页 >
产品中心首页 >
行业
行业中心
< 返回主菜单
行业
行业中心首页 >

AI-Fabric智算中心网络解决方案

以太赋能,智通未来

变局与挑战
随着AI模型不断演进,模型参数持续攀升,智算中心的能力提升迫在眉睫。
受限于网络通信性能,大规模分布式GPU集群的计算效率仍然难以实现线性增长,智算中心的发展面临重重挑战。
组网规模需求大

组网规模需求大

AI训练需要大规模GPU集群组网和分布式并行计算解决集群规模与GPU效率的平衡,网络需要支持数千甚至上万卡GPU集群建设

网络性能要求高

网络性能要求高

大模型的机间网络通信占比提升,高带宽接入及高带宽利用率成为影响训练效率的网络关键指标

建设部署时间紧

建设部署时间紧

项目建设周期紧,需要业务快速上线,对网络的部署时效提出了更高要求

运维管理难度高

运维管理难度高

在训练期间如果出现网络不稳定的问题,会影响整个训练任务的进度

锐捷网络AI-Fabric智算中心网络解决方案
满足AI模型的训练需求
超大规模组网
极致高吞吐网络
快速部署上线
AI智能运维
GPU服务器通常配置多张网卡用于参数训练,为了提升GPU训练效率,保障集群通讯的低时延无损通信,锐捷网络AI-Fabric网络解决方案采用多轨组网架构,让同号网卡连接到同一网络Pod组内,使训练业务的流量限定在同一Pod组或同一Tor设备上,从而减少转发跳数,大幅降低网络转发时延;同时为了构建高算力的大规模GPU集群,锐捷网络AI-Fabric网络解决方案采用三级组网,各层级按照1: 1的收敛比的设计,最大可以提供32768个400G端口,实现32K个GPU的集群承载。

AI-Fabric 三级多轨组网架构

三级组网:承载GPU大规模集群,实现服务器间的高速通信;
多级架构:减少转发跳数,降低通信时延,提升业务亲和力;

单芯片25.6Tbps,盒-盒架构
  • 交换机端口: 64 x 400GbE
  • 二级组网架构:最大 2K GPU
  • 端口SerDes : 56Gbps
  • 三级组网架构:最大 8K GPU
单芯片25.6Tbps,盒-盒架构
  • 交换机端口: 128 x 200GbE
  • 二级组网架构 : 最大4K GPU
  • 端口SerDes : 56Gbps
  • 三级组网架构 : 最大16K GPU
单芯片51.2Tbps,盒-盒架构
  • 交换机端口: 128 x 400GbE
  • 二级组网架构 : 最大8K GPU
  • 端口SerDes : 112Gbps
  • 三级组网架构 : 最大32K GPU
方案价值
超大规模组网
超大规模组网
采用多轨组网架构,支持按需灵活部署;
三级组网最大可支持32K个GPU集群;
极致高吞吐网络
极致高吞吐网络
高带宽、低时延的RoCE无损网络设计;
RALB技术保障网络的高带宽利用率;
快速部署上线
快速部署上线
RoCE一键部署,提升上线效率;
多个应用案例和大规模RoCE调优经验;
AI智能运维
AI智能运维
实时遥测关键指标,可视化呈现;
多维度监控和分析,防患于未然;
明星产品
相关链接

返回顶部

请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式