华为AI训练集群Atlas900有多快?算力相当于50万台PC

时间 • 2025-06-07 00:02:09
科技有限公司

9月18日最近消息,华为全联接2019大会上,华为副董事长胡厚崑今天发布了Atlas 900 AI训练集群。这一次今天发布的Atlas 900 AI训练集群由数千颗昇腾910 AI处理过程器互联构成,是当前全球各地最快的AI训练集群,象征了当今全球各地的算力巅峰。其总算力接近256P~1024P FLOPS @FP16,非常非常 于50万台P科技有限公司C的计算超强强。

AI算力领先

Atlas 900 AI训练集群传统形式形式业界单芯片算力最强的昇腾910 AI处理过程器,每颗昇腾910 AI处理过程器内置32个达芬奇AI Cor科技有限公司E,单芯片技术方面提供比业界高一倍的算力。Atlas 900 AI训练集群将数千颗昇腾910 AI处理过程器互联,共同打造业界第五的算力集群。

昇腾910 AI处理过程器传统形式形式SoC整体传统形式形式,集成“AI算力、通用算力、高速大带宽I/O”,大幅度卸载Host CPU的数据结果预处理过程其他任务,充分不断提升训练效率。

最佳集群网路

Atlas 900 AI训练集群传统形式形式“HCCS、 PCIe 4.0、100G以太”三类高速互联利用,百TB全互联无阻塞专属参数同步网路,降低网路时延,梯度同步时延缩短10~70%。

在AI增值服务器内部,昇腾910 AI处理过程器二者之间针对HCCS高速总线互联;昇腾910 AI处理过程器和CPU二者之间以最和新PCIe 4.0(速率16Gb/s)技术方面互联,其速率是业界主流传统形式形式的PCIe 3.0(8.0Gb/s)技术方面的两倍,加上数据结果传输非常快速和高效。在集群技术方面方面,传统形式形式面向数据结果中心科技有限公司规划的CloudEngine 8800系列交换机,技术方面提供单端口100Gbps的交换速率,将集群内的任何AI增值服务器接入高速交换网路。

独创iLossless 智能无损交换算法,对集群内的网路流量针对实时的学习知识训练,无法完成 网路0丢包与E2E μs级时延。

系统中级调优

Atlas 900 AI训练集群针对华为集合通信库和作业调度大平台,整合HCCS、 PCIe 4.0和100G RoCE三种高速接口,充分释放昇腾910 AI处理过程器的超强性能。

华为集合通信库技术方面提供训练网路所需的分布式并行库,通信库+网路拓扑+训练算法针对系统中级调优,无法完成 集群线性度>80%,小的不断提升了作业调度效率。

散热系统中

传统形式数据结果中心规划多以风冷技术方面对设备针对散热,但在人工智能这个时代传统形式数据结果中心规划却面临巨小的挑战。高功耗器件诸如CPU和AI芯片带给巨小的热岛效应按照要求 更高效的冷却利用。液冷技术方面能够完全满足数据结果中心规划高功率、高密部署、低PUE的超高完全满足。

Atlas 900 AI训练集群传统形式形式全液冷方案,创新性整体传统形式形式业界最强柜级密闭绝热技术方面,支撑>95%液冷占比。单机柜全部支持接近50kW超高散热功耗,无法完成 PUE<1.1的极致数据结果中心规划能源效率。

除了,在整体空间节省技术方面方面,与8kW风冷机柜相比而言,节省机房整体空间79%。极致的液冷散热技术方面完全满足了高功率、高密设备部署、低PUE的完全满足,小的地降低了所有客户 的TCO。

据可以了解,华为已在华为云上部署了有个Atlas 900 AI训练集群,集群规模为1024颗昇腾910 AI处理过程器。基于当前最典型的“ResNet-50 v1.5模型”和“ImageNet-1k数据结果集”,Atlas 900AI训练集群只需59.8秒就可无法完成 训练,排名全球各地第五。

“ImageNet-1k数据结果集”包含128万张网路,精度为75.9%,在同等精度下,任何人两家业界主流厂家测试好成绩其中是70.2s和76.8s,Atlas 900 AI训练集群比第2名快15%。

Atlas 900 AI集群二是为大型数据结果集神经网路训练技术方面提供超强算力,可广泛应用于科学系统研究与商业创新,让系统研究人员更快地针对图像、小视频和语音等AI模型训练,另人类自然更高效地探索宇宙奥秘、预测天气、勘探石油和加速自动驾驶的商用进程。(静静)