发布时间:2026-03-26
最近,整个科技圈都被一只“龙虾”刷屏了。
深圳腾讯大厦门口排起长队,只为免费安装那只叫OpenClaw的AI智能体;二手平台上,“上门装虾”服务报价从几百到上千元不等。
这只“虾”之所以火,是因为它不再是“只会聊天”的AI顾问,而是能真正动手干活的数字员工——自动整理邮件、生成报表、甚至帮你运营社交账号。
但很少有人问:当千万只“龙虾”同时在云端开工,它们住的“虾塘”——那个承载AI算力的数据中心,撑得住吗?
国内某头部云厂商,最近干了件有意思的事,他们没急着追“小龙虾”的热点。而是先给这群即将到来的“数字员工”,盖了一座能扛住8000张800G网卡同时吞吐的超大“虾塘”。而这个“虾塘”的总规划师,正是锐捷网络,其基于800G网卡的双平面高可靠方案已成功落地交付。
这家云厂商思考布局的背后,藏着一个朴素的逻辑:不管你今天是在“养鱼”(AI问答),还是明天想“养虾”(AI执行),算力基础设施都必须先到位。他们的考虑也很现实:
目前,市面上智算网络基础设施(数据中心交换机等),普遍存在供应短缺的问题:发货时间不确定、交付上线无法保障。“虾塘”都快建好了,水泵还没到货。AI算力中心的交付也是环环相扣的,多等一天、算力租赁就少赚一天。
另一方面,组网架构若设计不合理,一旦出现故障,直接导致客户业务中断或卡顿,另外需要占用大量运维人力,给算力中心造成巨额成本损失。
锐捷的工程师到了现场,没有急着堆设备,而是拿出了一套让未来所有“AI生物”都能安心游动的“池塘”设计图。
使用RG-S6990-128QC2XS交换机(TH5,51.2Tbps)进行二级双平面组网,接入1000台配备8张800G网卡的GPU服务器,整个集群8000张网卡——相当于8000条数据“水管”同时向“池塘”注水。
为了让这1000台GPU服务器稳定服务,让龙虾养分不断供。锐捷把它们接入A/B双平面冗余组网,服务器的800G网卡通过两个400G端口,将流量均匀负载到两个平面,确保800G网卡下AllReduce带宽稳定达到760GB/s以上。两个平面同时工作、互为备份,当其中一条平面出现故障时,另一条可无缝承接通信,不中断业务、不损耗带宽,充分保障 AI 训练链路高可靠。
为了达成零丢包、无阻塞的极致性能,锐捷采用1:1收敛设计(下行口与上行口数量一致),每台ToR的所有上行口分别连接到同平面的64台Spine设备,形成一张纵横交错的“高速路网”——从任何一个计算节点出发,到任意其他节点都有多条直达路径,彻底消除网络拥堵。
超级“池塘”盖好了,运维管理同样重要。该厂商最担心的是:万一某个区域“爆管”(网络故障),整个集群的计算会不会全受影响?锐捷从“自动避灾”、“可视化监控”两个维度,给出解法。
对于该项目来说,最核心的诉求就是实现业务逃生、网络不中断。锐捷通过在Spine交换机之间互联冗余链路,建立期应急数据通道。就像在两个平行的“养殖区”之间,临时打通了几条应急水道。虽然只是简单连接,但关键时刻,水(数据)可以借道隔壁区流过去,避免断流。
随着后期部署完善,锐捷又对逃生方案做“无感升级”:从简易应急通道,升级为更智能的分布式逃生机制。让每个节点都具备自主感知、调度能力,出现异常可毫秒级自动切换备用路径。
从“临时通道”到“智能导航”,锐捷用分阶段优化的思路,既保证了项目前期的快速上线,又为长期稳定运行埋下了更聪明的“大脑”。
锐捷为该厂商打造“GRPC遥测技术”,使每台交换机不再是沉默的“设备”,而变成了实时播报员:哪里带宽使用率上升、哪里缓存轻微波动……毫秒级推送报告。极致的可视化能力,让故障定位从“几天”缩短到“几分钟”。
这家云厂商搭建起的数据中心网络,其背后是锐捷在智算网络领域的长期深耕:中国200G/400G数据中心交换机市占率,锐捷连续15季度领跑,为千行百业的智算中心打造稳定可靠的网络基石;多平面架构+网卡故障自愈方案,提升服务可用性;端网一体的通信优化服务,让每个GPU都能全速计算。而锐捷的专业性、服务可靠性,也多次受到这家云厂商的肯定。
对于这家云厂商来说,此次交付的不是一个“今天够用”的工程,而是一份面向未来算力需求的底气。
