告别运维内耗 全域协同提效 丨 锐捷网络运维保障经验分享会
预约直播
无感准入 人物统管 丨 RG-SAM+5.X 新一代高校AI认证平台发布
预约直播
产品
< 返回主菜单
产品中心
产品
解决方案
< 返回主菜单
解决方案中心
行业
返回主菜单
选择区域/语言

十万卡GPU集群“不堵车”,算力背后的网络调度密码

锐捷AI-Fabric智算网络解决方案针对万卡级GPU集群的AI训练瓶颈,通过三级多轨组网、高达97%的带宽利用率与端到端零丢包设计,有效降低网络通信时延,释放算力。方案支持超大规模集群扩展,并借助智能运维实现网络可视化与自动化管理,已助力锐捷在高端数据中心交换机市场连续领先,为智算中心构建高效数据基础。

  • 发布时间:2025-12-24

  • 点击量:

  • 点赞:

分享至

我想评论

10月,Gartner发布2026年十大战略技术趋势:“AI超级计算平台”位列首位。并预测,到2028年,将混合计算范式架构应用于关键业务流程的领先企业将达到40%以上。

11月,信通院《人工智能算力基础设施赋能研究报告(2025)》指出:我国人工智能算力基础设施正处于系统性升级与架构演进的关键时期,未来将进入超大规模集群化、绿色低碳化与高速互联化阶段。

随着大模型参数规模从千亿级向万亿级迈进,算力集群中GPU间的通信效率已成为AI训练过程中的关键瓶颈。传统网络架构下,大规模GPU集群的计算效率往往难以实现线性增长,网络通信时间占比甚至高达30%以上。

这意味着:真正的AI产业竞争力不止来自GPU的规模,模型训练、推理、调度全过程的数据流效率,也同等重要。在这个意义上,AI网络已经成为新的基础设施主战场。

训练吞吐慢,网络效率常“背锅”

多个公开行业分析都指出,随着模型参数和训练数据规模的指数式扩张,网络在AI集群中的成本与瓶颈正在快速上升。这背后有几个本质变化:

1.AI 集群结构从“单机强”转向“多机耦合强”

AI训练吞吐越来越依赖节点间通信效率,比如:All-Reduce过程的同步等待、模型并行带来的跨节点梯度交换、海量训练样本的数据分发。

行业普遍认为,大规模AI训练任务中,网络通信占用的时间可能已接近甚至超过算力计算时间。如果通信效率低,即便拥有成百上千张GPU,也难以实现线性扩展。

2.东西向流量爆炸,需要极低时延与无损网络

过去,云数据中心是“南北向业务流”为主。而现在,AI集群则是典型的“东西向流量密集型系统”,部分大型数据中心的东西流量占比甚至超过70%。不同于“南北向流量”单向性为主、单次请求数量小等特征,“东西向流量”内部服务器之间双向通信频繁、并发数据量极大。内部带宽不足、交换机拥塞、延迟抖动……成为主要网络困境。

因此,AI网络(具备无损以太网络、拥塞控制、基于流特征的智能调度算法等能力)已经不是“锦上添花”的性能优化价值,而成为训练跑通的“基础设施”。

3.AI训练与推理的部署模式更加多样化

信通院报告显示:当前运营商、AI头部厂商正从“集中式大集群”走向更为多样化的体系,即训练仍集中在超大规模GPU集群以确保吞吐与成本效率,但推理工作则逐步向边缘节点、行业专用集群以及业务侧的轻量化服务下沉。同时,多业务团队、多个模型版本的并行运行成为常态,训练与推理往往需要在同一基础设施上混合编排。

由此,“训练中心+推理边缘+混部调度”的立体化模式正成为主流,也对底层网络提出更高的智能化、隔离性与可观测性要求。

“算网合一”成必然趋势

传统IT基础设施中,算力、存储、网络是相对独立的模块。但在AI中,三者正在融合为一个整体资源池,而网络承担着“粘合剂”的角色。未来的AI基础设施有几个明显方向:

趋势1:面向AI场景的网络自治能力

AI训练的通信图谱更复杂、流量突发更剧烈,需要网络具备:自动识别训练阶段;自适应优化拥塞算法;智能路径选择;隐式保障关键流。也就是说,网络需要像调度系统一样“理解AI”。

趋势2:端到端可视化成为主战场

大模型玩家越来越意识到:训练稳定性的问题,不仅靠“堆GPU”,还需要“观察GPU为什么没被充分利用”。因此,AI网络需要做到:GPU、CPU、网络设备的跨维度监测;PSL/Flow性能的实时可观察;对端到端训练任务的运行视角重建。可视化的价值,不仅是“监控”,更是训练效率优化的基础。

趋势3:开放生态与异构算力的并存

未来企业的AI集群不可能只基于单一GPU、单一框架或单一网络厂商。行业趋势明显指向:以太网继续成为主流承载方案;硬件与编排软件协同优化;多厂商设备混部成为常态。这对网络系统的开放性、兼容性提出了更高要求。

简而言之,大规模训练集群如今像一座复杂工厂,而非一个机房。AI网络要解决的不只是“带宽”问题,而是“效率”与“可预测性”问题。

AI-Fabric智算网络,为啥能满足AI训练需求?

锐捷AI-fabric智算中心网络解决方案,本质上是针对上述趋势给出的一个系统化回答。其价值不在于某个单点技术,而在于“把网络当作AI工程的一部分来设计”。

一起来看,它怎么系统性满足智算中心的AI训练需求?

1.十万卡GPU “不堵车”,网络不再成为训练瓶颈

传统网络就像单车道,设备多了必然堵。锐捷用 “三级多轨组网”,相当于给数据修了 “专属高速网”:

  • 每张GPU网卡都有 “专属通道”,数据不用绕路,时延大幅降低;
  • 支持多轨组网架构,三级组网最大能连100000+GPU集群。

说白了,就像给小区每个单元,都配备专属电梯直达车库,不用等、不拥挤,10万多 “住户”(GPU)出门都顺畅。

图1:102.4T高密交换机,具备百万卡组网能力

2.高达97%带宽利用率,释放极致算力

AI训练的核心矛盾的是 “数据传得慢,算力被闲置”。锐捷直接给数据传输装了 “超级加速器”,让算力全程满负荷运转,不浪费一分钱硬件成本:

  • 400G/800G RoCE无损网络设计,低时延、高带宽;
  • 只拓宽“通道”还不够,分流手段也很关键。基于不同场景的网络均衡方案:RALB管十万卡集群、AILB宏观调度全局、ENLB守核心链路,每个场景都有专属 “调度员”,使带宽利用率达97%;
  • 值得注意的是网络 “1:1收敛比” 设计,不管多少设备同时传数据,保证带宽都不缩水。

这就像城市的“智能交通网”,不仅统计车流量,还能实时监测每条车道的路面状况、车辆速度和拥堵程度,动态调整信号灯,进而保证所有道路资源被有效利用,避免拥塞。

图2:AILB全局负载均衡

3.数据传输 “零丢包”,训练再也不返工

LLMs训练时间长,最怕 “丢包”。一次故障,不仅此前功夫白费,严重影响训练周期和成本。锐捷从网卡、光模块、链路到交换机的高可靠设计,有效解决上述问题:

  • RCCL让网卡故障秒级逃生,训练中断率降90%;
  • 支持LPO光模块,低功耗、高可靠;
  • 高频光模块故障“事前检测-事中预警-事后预测”;
  • ECMP快切确保设备间链路故障,毫秒级收敛;
  • CLOS架构设计提高设备节点冗余度,CPU/跳变/HAM进程等异常自愈。

全流程、全节点的故障处理机制,显著降低网络干扰与停机时间。锐捷也凭借AI以太网架构与网络优化效率两项关键技术,入选2025年Gartner®《新兴技术影响力雷达:能效大规模计算》代表厂商。

图3:高可靠网络设计图

4.部署更简单,运维更智慧

智算中心网络 “设备多、参数繁、需求杂”,对于部署运维而言, “手动操作累、故障定位慢、扩容不兼容”是常态。借助锐捷的运维中心,通过统一的SDN控制器,实现全网可视化、自动化配置与智能运维:

  • 一键部署上线,千卡集群仅7天交付;
  • 基于大数据和AI算法,实现云端算力仿真模拟,性能、收益智能分析;
  • 网络可视化管理,自动发现断连、错连、拥塞等异常,快速定位、隔离、恢复;
  • 网侧+端侧自适应辅助调优,不论是训练任务变化、集群扩容、还是数据量波动,自动调整传输策略。

这就像给智算网络请了位 “全能智能管家”,不用增加人力投入,哪怕是运维新手,也能轻松管好十万卡集群。

图4:网络健康度视图

锐捷智算中心网络方案,在落地应用中,也广泛受到市场认可。据IDC统计,中国200G/400G数据中心交换机出货量,锐捷网络连续14个季度(2022年-2025Q2)排名第一。

从打破单机算力壁垒到打通全网数据流通堵点,锐捷AI-Fabric智算网络以 “低时延、高带宽、广连接” 的技术硬实力,修通了一条高效运转的 “数据高速”,赋能智算中心跑出 “加速度”。

相关标签:

点赞

更多技术博文

任何需要,请联系我们

返回顶部

收起
文档AI助手
文档评价
该资料是否解决了您的问题?
您对当前页面的满意度如何?
不咋滴
非常好
您满意的原因是(多选)?
您不满意的原因是(多选)?
您是否还有其他问题或建议?
为了快速解决并回复您的问题,您可以留下联系方式
邮箱
手机号
感谢您的反馈!
请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式