节点规模对训练效率的影响
                        单纯提升服务器节点规模,集群计算效率反而下降
                         
                        带宽对训练效率的影响
                        服务器集群的通信带宽已成为提升分布式训练效率的瓶颈
                         
                        动态时延对训练效率的影响
                        网络拥塞导致动态时延高,降低GPU利用率,训练时间延长
                         
                        丢包率对于训练效率的影响
                        RDMA丢包重传导致带宽利用率快速降低,丢包率达到1%,严重影响训练效率
                         
                         
                 
             
                         
                         
                         
                         
                         
   
 
   
     
             
      