AutoR智驾 2021-06-29 16:15
NVIDIA 发布全新HGX A1,超级云上的超级计算机推动AI无处不在
分享
NVIDIA在HGX平台中加入了三项关键技术:NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage软件。三者结合,提供了卓越的性能,以实现产业 HPC 的创新。

6月28日,NVIDIA宣布在NVIDIA HGX™ AI超级计算平台中加入融合了AI与高性能计算的新技术,使越来越多的行业能够更加充分地利用超级计算的力量。

 

NVIDIA在HGX平台中加入了三项关键技术:NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage软件。


三者结合,提供了卓越的性能,以实现产业 HPC 的创新。

 

目前,已有数十家合作伙伴将NVIDIA HGX平台用于新一代系统和解决方案,其中包括源讯(Atos)、戴尔科技(Dell Technologies,)、慧与(Hewlett Packard Enterprise )、联想(Lenovo)、Microsoft Azure以及NetApp等。 

 

NVIDIA创始人兼首席执行官黄仁勋先生表示:“HPC(超级计算平台) 革命始于学术界,并迅速扩展到各行各业。产业各项关键趋势正在推动超指数、超摩尔定律的发展速度,使HPC变成各行业都能使用的工具。NVIDIA 的 HGX 平台为研究人员提供了卓越的高性能计算加速能力,以解决行业面临的那些最棘手的问题。”

 

行业领导者使用 HGX 平台推动创新突破

 

高科技产业先驱者通用电气正在使用 HGX 平台,将 HPC 创新应用于计算流体动力学模拟,以指导大型燃气轮机和喷气发动机的设计创新。HGX 平台在通用电气的 GENESIS 代码中实现了突破性 CFD 方法的数量级加速,该代码采用大涡模拟来研究涡轮机内部湍流的影响。


涡轮机由数百个单独的叶片组成,需要独特的复杂几何形状。

 

除了推动产业 HPC 转型外,HGX 平台还在加速世界各地的科学 HPC 系统,包括同样在今日宣布的位于爱丁堡大学的新一代超级计算机。

 

NVIDIA A100 80GB PCIe GPU提升AI和HPC性能

 

NVIDIA A100 Tensor Core GPU提供了前所未有的HPC加速能力,解决了与产业HPC相关的复杂AI、数据分析、模型训练和计算模拟等挑战。


与A100 40GB相比,A100 80GB PCIe GPU的内存带宽增加了25%,达到2TB/s,并且提供80GB的HBM2e高带宽内存。

 

A100 80GB PCIe的巨大内存容量与高内存带宽,可以保存更多的数据和更大的神经网络,从而最大限度地减少节点间通信和能耗。


凭借其更快的内存带宽,研究人员能够获得更高的吞吐量和更快得到结果,实现IT投资价值的最大化。

 

A100 80GB PCIe GPU基于NVIDIA Ampere架构。


该架构内置Multi-Instance GPU(MIG)功能,可为AI推理等小型工作负载提供加速。


MIG允许HPC系统缩小计算和内存规模的同时并保证服务质量。除了PCIe之外,还有四卡和八卡的NVIDIA HGX A100配置。

 

NVIDIA合作伙伴为A100 80GB PCIe GPU提供了广泛的支持,包括源讯(Atos)、思科(Cisco)、戴尔科技(Dell Technologies)、富士通(Fujitsu)、新华三(H3C)、慧与(Hewlett Packard Enterprise )、浪潮(Inspur)、联想(Lenovo)、Penguin Computing、云达科技(QCT)以及超微(Supermicro)。


通过 NVLink 互连的基于 A100 GPU 的 HGX 平台也可通过来自 AWS (Amazon Web Services)、Microsoft Azure 和 Oracle Cloud Infrastructure 的云服务获得。


新一代NDR 400Gb/s InfiniBand交换机系统

 

NVIDIA InfiniBand是全球唯一具有完全卸载功能的网络计算的互连系统,为那些需要超大数据通道的HPC系统提供超强支持。通过NDR InfiniBand网络可以轻松扩展性能,以应对产业HPC和科学HPC系统面临的大量挑战。基于NVIDIA Quantum™-2单芯片的交换机系统可提供64个NDR 400Gb/s InfiniBand端口(或128个NDR200端口),其端口密度比HDR InfiniBand高出3倍。

 

NVIDIA Quantum-2模块化交换机提供了可扩展的端口配置选项,最高可提供2048个NDR 400Gb/s InfiniBand端口(或4096个NDR200端口),双向总吞吐量达到1.64 Pb/s,是上一代HDR InfiniBand模块化交换机系列的5倍。相比上一代,这款2048端口交换机的扩展能力增加了6.5倍,采用DragonFly+网络拓扑,只需三个网络Hop就能连接超过一百万个节点。第三代 NVIDIA SHARP 网络计算数据归约技术,比上一代的AI 加速能力提高了 32 倍,可大幅提升高性能产业和科学应用的性能。

 

此外,NVIDIA UFM® Cyber-AI平台还提供了先进的管理功能,如网络自修复功能等,以及NVIDIA网络计算加速引擎,进一步将数据中心的停机时间降至最低。

 

基于行业标准的NVIDIA Quantum-2 交换机(预计在年底前可出样品)具有向后和向前的兼容性,可以轻松迁移和扩展现有系统和软件。

 

包括源讯(Atos)、DDN、戴尔科技(Dell Technologies)、Excelero 、技嘉科技(GIGABYTE)、慧与(HPE)、联想(Lenovo)、Penguin Computing、云达科技(QCT)、超微(Supermicro)、VAST以及 WekaIO 在内的业内领先基础设施制造商等,均计划将Quantum-2 NDR 400Gb/s InfiniBand交换机集成到其企业级产品和HPC产品中。另外,包括Azure在内的云服务供应商们也正在使用InfiniBand技术。

 

而在ISC 高性能计算大会 刚刚发布的 TOP500 榜单中,有 342 个系统采用了 NVIDIA 技术提供加速,其中包括70%的新系统,与排名前10的8个。


最新的全球最强系统榜单显示出越来越多的高性能计算中心在使用 AI,也体现出用户们在继续拥抱NVIDIA AI与加速计算、网络技术的组合来运行他们的科学和商业工作负载。


例如,榜单上使用 InfiniBand 的系统数量比去年增加了 20%。随着AI,HPC和模拟数据对于低延迟和加速的需求日益增加,InfiniBand已成为首选网络。


此外,名单上的两个新系统便是我们所称的超级云——一种新兴的共享超级计算机,能够同时满足人工智能、高性能计算和云端的需求。


超级云的到来


Microsoft Azure 利用集群将公有云服务提升到一个新的水平,在 TOP500 榜单上连续占据第 26 位到第 29 位。 它们是超级云的一部分,是一台全球的人工智能超级计算机,如今地球上的任何用户都可以按需使用。


在HPL基准测试(也成为了Linpack),四个 Azure 系统中的每一个都实现了 16.59 Petaflop 的计算性能。Linpack 是衡量 64 位浮点数学运算的高性能计算性能的传统标准,也是 TOP500 榜单的参考依据。


迈入行业高性能计算时代


Azure 系统便是 NVIDIA 首席执行官黄仁勋所述“行业高性能计算革命”的一例,即 AI 与高性能计算和加速计算融合,正在推动科研和行业各个领域的发展。


在幕后,有 8 个 NVIDIA A100 Tensor Core GPU 为 Azure 系统的各个虚拟实例提供动力支持。每个芯片都有自己的 HDR 200G InfiniBand 通信接口,可以与 Azure 云中的数千个 GPU 建立快速连接。

 

英国研究人员采用云原生技术


剑桥大学首次成为英国最快的学术系统,其超级计算机在 Green500 世界上最节能的系统名单中排名第三,这是另一种超级云。它被称为 Wilkes-3,是世界上第一台云原生超级计算机,其使研究人员可以在不影响性能的情况下,共享具有隐私和安全性的虚拟资源。 


这要归功于 经过优化的NVIDIA BlueField DPU可以执行安全、虚拟化和其他数据处理任务。


该系统使用 320 个连接在 HDR 200G Infiniband 网络上的 A100 GPU,为学术研究以及探索科学和医学前沿的商业合作伙伴加速模拟、人工智能和数据分析。

 

TOP500 榜单新秀采用 AI


榜单上许多由 NVIDIA 提供动力支持的新系统,凸显了 AI 对于科研和商业用户的高性能计算应用的重要性不断提升。


国家能源研究科学计算中心 (NERSC) 的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5,部分归功于其 6,144 个 A100 GPU。


该系统在最新版本的 HPL-AI 上提供了超过一半的 exaflops 性能。它是融合 HPC 和 AI 工作负载的新兴基准,它使用混合精度数学——深度学习和许多科学和商业工作的基础——同时仍然提供双精度数学的完全准确性。


AI 性能变得越来越重要,因为 AI 是 “美国能源部的一个增长领域,其可行性已被验证,正在计划投入生产,” NERSC 数据和分析服务组代理负责人 Wahid Bhimji 表示。


HiPerGator AI 以 17.20 petaflops 排名第 22 位,在 Green500 榜单中排名第 2,使其成为世界上最节能的学术超级计算机。


它与 Green500 的榜首位置相差甚远——仅为 0.18 Gflops/Watt。


与最新名单上的其他 12 款系统一样,该系统采用了 NVIDIA DGX SuperPOD 的模块化架构,这一配置让佛罗里达大学能够快速部署世界上最强大的学术 AI 超级计算机之一。 该系统还使其成为领先的AI大学,其既定目标是 在2030 年前有 30,000 名AI相关专业的毕业生。


卢森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。 该系统是首批在欧洲国家超级计算机网络中亮相的首个系统,,将用于在科研和商业应用中运用 AI 和数据分析。


Cambridge-1 在 500 强中排名第 42 位,达到 9.68 Linpack petaflops,成为英国最强大的系统,将为包括阿斯利康(AstraZeneca)、葛兰素史克(GSK)和Oxford Nanopore在内的学术和商业组织的英国医疗保健研究人员提供服务。


BerzeLiUs 以 5.25 petaflops 排名第 83,成为瑞典最快的系统。BerzeLiUs在 200G 的 InfiniBand 网络上连接了 60 个 NVIDIA DGX 系统,将HPC、AI 和数据分析用于学术和商业研究。是榜单上15个基于NVIDIA DGX的其中一个。

 

10 大系统助推 HPL-AI 采用


另一个迹象表明,AI 工作负载的重要性日益增加,榜单上有 10 个系统报告其 HPL-AI 得分是去年 6 月的 5 倍。大多数系统采用了  3 月发布的针对代码的重大优化,这是自田纳西大学的研究人员在 2018 年底发布该基准以来的首次升级。


新软件简化了通信,实现了 GPU 间链路,从而消除了等待主机 CPU 的时间。它还以 16 位代码的形式实现通信,而不是在Linpack 上默认使用的较慢的 32 位代码。


Azzam Haidar Ahmad 称:“我们将芯片间通信的时间减少了一半,并使其他一些工作负载能够并行运行,因此新代码相较于原代码平均改进了约 2.7 倍”。他帮助定义了该基准,现在是 NVIDIA 的高级工程师。


该基准测试虽然专注于混合精度数学计算,但仍然提供与 Linpack 相同的 64 位精度,这要归功于 HPL-AI 的一种循环方法,它能迅速优化一些计算。

 

Summit 的 HPL-AI 得分超过 1 Exaflop


经过优化后,与去年使用早期版本的代码所报告的得分相比,现在的得分大大高于基准线。


例如,橡树岭国家实验室(Oak Ridge National Lab,ORNL)的 Summit 超级计算机是第一台采用 HPL-AI 基准的超级计算机,其在 2019 年宣布使用第一版代码的得分为 445 Petaflop。今年峰会上的测试使用最新版本的 HPL-AI 测试,得分达到 1.15 Exaflops。


采用该基准的其他超级计算机包括日本的 Fugaku(世界上最快的系统)、NVIDIA 的 Selene(世界上最快的商业系统)和德国的最强超级计算机 Juwels。


于利希超算中心 (Jülich Supercomputing Center) 主任 Thomas Lippert 称:“我们使用 HPL-AI 基准,因为它能很好地衡量我们日益增多的 AI 和科研工作负载中的混合精度作业,而且能反映准确的 64 位浮点运算结果。”

x

收藏 0
打赏
相关标签:
电话:010-65030507
邮箱:editor@autor.com.cn
地址:北京市朝阳区朝外大街乙6号朝外SOHO D座5097室
北京智驾时代传媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版权所有 AutoR智驾 智能汽车网
京ICP备14027737号-1      京公网安备 11010502038466号
电信与信息服务业务经营许可证:京B-20211307
关注官方微信