您订阅的产品有更新,请及时查阅
查看详情
产品基于Web平台,涵盖设计、部署、分析保障和系统管理四大模块,提供全生命周期的网络与算力集群运维解决方案
类型:
产品特性:
产品基于Web平台,涵盖设计、部署、分析保障和系统管理四大模块,提供全生命周期的网络与算力集群运维解决方案。
设计模块:网络分区,支持基于物理位置和逻辑位置的网络分区,实现资源管理与业务网络规划;凭证管理,涵盖SNMPv2、SNMPv3、Netconf、SSH等协议;集群算力分析,通过仿真推导计算与通信时间、算力利用率,预判瓶颈并推荐最优并行训练策略。
部署模块:包含端网极简开局(零配置自动上线)、开局巡检(布线检测、光模块质检、性能验收)、设备管理(物理设备及资源管理、协议链接维护)及业务网络部署(RoCE和VLAN网络一键配置与策略调优),实现快速高效的网络部署交付与管理。
分析保障模块:基础监控,提供全网拓扑展示、告警管理及网络日志查看;健康分析,涵盖设备、接口、队列等关键指标遥测分析、网络拥塞分析、光链路监测分析;RoCE业务分析,支持算力服务器监控、集合通信管理、自适应ECN智能调优及基于整网拓扑的网络质量可视化;诊断分析,具备故障一键诊断、DDC设备连通性检测和服务器连通性探测功能;采集配置,支持遥测订阅及高精度监控管理。
系统管理模块:负责运维分析器自身的节点、应用及数据库监控,支持组件升级、用户及角色权限管理、安全策略与机构管理、功能授权、日志查看(操作、运行、安全)以及系统数据备份与恢复,保障平台安全稳定运行。
|
软件功能规格 |
软件功能描述 |
|
网络分区 |
可新增、编辑、删除分区,主要用于根据实际情况进行网络分区规划和管理 |
|
网络设置 |
主要进行网元凭证(netconf、ssh、snmp)的配置,后续用于设备纳管时南向通道的创建,用于配置下发、设备信息获取等 |
|
算力仿真分析 |
纯仿真能力,不需要纳管实际环境相关设备和服务器,主要用于部署阶段。根据客户配置的集群规模与业务模型(模型信息与并行策略)推导出计算和通信的时间,算力的利用率等信息;推荐出最优的交换设备组网模型、服务器配置、并行训练策略等 |
|
设备管理(数据中心交换机) |
进行交换设备纳管,支持网元列表信息呈现,可以进行网元列表导出,支持web-cli界面,直接在界面上进行cli命令配置操作 交换机设备批量升级 交换机设备命令批量下发 |
|
交换机网元全景 |
显示DC交换设备的基本信息、arp/mac表项等资源信息及使用率、板卡、电源、风扇、端口信息、协议连接信息,并进行网元告警管理 |
|
交换机RoCE自动部署 |
内置专家配置经验库,根据不同角色类型的交换设备,将RoCE的ECN和PFC的优先队列管理和拥塞管理调试配置经验及最优配置进行收集和管理;解决不同型号设备对应水线配置差异化,专家经验传承代价大的问题。 根据交换设备类型和型号进行RoCE的一键初始部署,可进行批量部署,并可将已部署的配置进行卸载,支持部署设备的RoCE配置查看。 RoCE策略调优自动化:RoCE部署场景中,通过一键部署自动下发初始的RoCE配置后,需要针对部分重点的水线配置做现场业务的配置调整。 |
|
端网极简开局
|
网络侧交换机:在设备0配置的情况下进行设备配置的自动生成与纳管,支持设备批量导入进行零配置开局(包含拓扑自动规划、BGP路由、AILB自动部署等多项underlay配置自动化),并可以进行上线过程的可视化(部署状态、预计耗时、已耗时,整体入网进度等) |
|
端侧智算服务器自动化部署(网卡、驱动、NCCL、RCCL通信库) |
|
|
开局自动巡检 |
布线错误检测(交换机和交换机间的连线,交换机和服务器间的连线)、交换机光模块污损检测 |
|
训前性能自动验收 |
RDMA性能和NCCL通信库模型自动验收 |
|
训推网络隔离自动化部署和管理 |
支持基于VLAN+ACL、VxLAN+EVPN进行网络的租户隔离 |
|
设备侧指标遥测可视 |
进行 设备&单板&端口和队列&光模块 等相关指标的遥测和趋势可视,并进行指标异常的接口和队列数量及趋势统计。收发流量等关键指标支持最高1s级别的遥测精度,其余支持最高10s级别遥测精度 |
|
端侧指标遥测可视 |
GPU服务器收发流量等关键指标支持最高10ms级别的遥测精度,其余支持最高10s级别遥测精度 |
|
RoCE网络可视分析 |
可进行交换机RoCE拥塞分析,拥塞接口数量统计和趋势可视,拥塞事件列表呈现。 光链路监控分析:包括接口误码率、电压、功率、温度、偏置电流等指标监控,误码率超阈值统计及趋势分析;支持光链路管理,链路信息查看,链路故障上报及链路告警。 RoCE关键指标整网拓扑可视分析:基于整网拓扑从设备->接口->队列层层下钻分析RoCE关键指标(PFC、ECN、CNP、NAK、拥塞、丢包、错包、带宽)。 |
|
RoCE业务可视分析 |
智算服务器管理:纳管智算服务器 智算服务器状态可视:服务器GPU、网卡、CPU信息列表及指标趋势可视,ECN统计和PFC统计,结合网络侧遥测,达到端到端可视;主要指标gRPC秒级遥测。 智算训练集群通信指标实时监控:网络连接状态遥测,集合通信库状态遥测,GPU慢节点趋势监控。 |
|
智算网络智能调优 |
智能负载均衡ENLB,分布式自适应ECN |
|
网络基础运维 |
拓扑管理、告警管理、网络日志查看 网元设备配置回溯 |
|
故障一键诊断 |
针对训练中断、性能下降两种典型场景进行指定时间段的问题一键诊断,可进行全网诊断和选定特定区域进行诊断。 |
|
端到端连通性检测 |
全网或指定区域的GPU服务器端到端连通性检测 |
|
一级SPEC |
二级SPEC |
三级SPEC |
备注 |
|
硬件服务器要求 |
CPU |
≥36核 @2.2G(2K卡以内算力集群规模,含端口队列流量等关键指标秒级亚秒级遥测) ≥48核 @2.2G (8K卡-万卡算力集群规模) |
- |
|
内存 |
≥256G |
后续有平滑扩容到更大规模组网场景的需求,建议按照更高规格提供。 |
|
|
硬盘 |
1、2K卡以内算力集群规模 1)存储3天遥测数据:6T SSD 2)存储7天遥测数据:10T SSD 3)存储14天遥测数据:16T SSD 2、8K卡算力集群规模,只支持TH5 二层组网秒级、毫秒级遥测,不支持TH4三层组网秒级、毫秒级遥测: 1)存储3天遥测数据:8T SSD 2)存储7天遥测数据:16T SSD 3)存储14天遥测数据:24T SSD |
1)所给规格为集群部署时,关键指标秒级、毫秒级遥测运维平台需要使用集群部署,不支持单机部署;如果需求允许采用单机部署时,则单机磁盘规格为集群的1/3。 2)关键指标秒级,毫秒级遥测,需要使用SSD硬盘;非秒级毫秒级遥测,HDD机械硬盘要求>=10000 RPM |
|
|
网络接口 |
千兆管理口(2K卡以内,10秒遥测) 万兆管理口(2K-8K卡,端口队列流量等关键指标秒级亚秒级遥测) |
1) 当前版本支持1s精度交换机端口队列流量关键指标遥测,10ms精度服务器端口队列流量关键指标遥测 2) 如果要求服务器和交换机走不同的管理网,需要两张网卡。 |
|
|
软件要求 |
操作系统 |
ubuntu22.04.1 |
- |