看GTC大会NVIDIA给我们带来什么:GPU、芯片互联、400G互联、以太网和AI平台
发布时间:2022-03-23 21:22:38 热度:1886
3/23/2022,光纤在线讯, 3月22日,美国加利福尼亚州圣克拉拉市,全球AI领域盛会,英伟达GTC(GPU技术大会)大会,上,这家全球最值钱的半导体公司创始人兼CEO黄仁勋为全球科技界带来一系列激动人心的AI新产品,包括:
1、H100 GPU
NVIDIA Hopper™ 以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。与上一代产品相比,该平台实现了数量级的性能飞跃。H100 GPU 集成了 800 亿个晶体管,拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink® 互连技术等突破性功能,可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。
黄仁勋表示:“数据中心正在转变成‘AI 工厂’。它们处理大量数据,以实现智能。NVIDIA H100 是全球 AI 基础设施的引擎,让企业能够利用其实现自身 AI 业务的加速。”
H100 技术突破
H100 NVIDIA GPU 为加速大规模 AI 和 HPC 设定了新的标准,带来了六项突破性创新:
● 世界最先进的芯片 —— H100 由 800 亿个晶体管构建而成,这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺,因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度,并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。
● 新的 Transformer 引擎 —— Transformer 现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍。
● 第二代安全多实例 GPU —— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例,以处理不同类型的作业。与上一代产品相比,在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置,将 MIG 的部分能力扩展了 7 倍。
● 机密计算 —— H100 是全球首款具有机密计算功能的加速器,可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。
● 第 4 代 NVIDIA NVLink —— 为加速大型 AI 模型,NVLink 结合全新的外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多可以连接多达 256 个 H100 GPU,相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络,带宽高出9倍。
● DPX 指令 —— 新的 DPX 指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,而后者可用于 DNA 和蛋白质分类与折叠的序列比对。
H100 的多项技术创新相结合,进一步扩大了 NVIDIA在 AI 推理和训练的领导地位,利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时满足实时对话式 AI 所需的次秒级延迟。利用 H100,研究人员和开发者能够训练庞大的模型,如包含 3950 亿个参数的混合专家模型,训练速度加速高达9倍,将训练时间从几周缩短到几天。
2、DGX H100 AI 平台
NVIDIA 的第四代 DGX™ 系统 DGX H100 配备 8 块 H100 GPU,以全新的 FP8 精度提供 32 Petaflop 的 AI 性能,并支持扩展,能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的海量计算需求,比上一代系统性能高 6 倍。
DGX H100 系统中的每块 GPU 都通过第四代 NVLink 连接,可提供 900GB/s 的带宽,与上一代相比,速度提升了 1.5 倍。NVSwitch™ 支持所有八块 H100 GPU 通过 NVLink 全互联。新一代 NVIDIA DGX SuperPOD™ 超级计算机可通过外部 NVLink Switch 互联,最多可连接 32 个 DGX H100 节点。
DGX H100 系统是新一代 NVIDIA DGX POD™ 和 NVIDIA DGX SuperPOD™ AI 基础设施平台的构建模块。新的 DGX SuperPOD 架构采用了一个全新的 NVIDIA NVLink Switch 系统,通过这一系统最多可连接 32 个节点,总计 256 块 H100 GPU。
3、Eos超级计算机:全球运行速度最快的AI超级计算机
NVIDIA Eos 预计将提供 18.4 Exaflops 的 AI 计算性能,比日本的 Fugaku 超级计算机快 4 倍,后者是目前运行速度最快的系统。在传统的科学计算方面,Eos 预计将提供 275 Petaflop 的性能。
NVIDIA 今日宣布推出首款面向 AI 基础设施和高性能计算的基于 Arm® Neoverse™ 的数据中心专属 CPU,其可提供最高的性能,是当今领先服务器芯片内存带宽和能效的两倍。
4、Grace CPU超级芯片
NVIDIA Grace™ CPU 超级芯片由两个 CPU 芯片组成,它们之间通过NVLink®-C2C互连在一起。NVLink®-C2C 是一种新型的高速、低延迟、芯片到芯片的互连技术。
Grace CPU 超级芯片是去年NVIDIA发布的首款由 CPU-GPU 集成的“Grace Hopper 超级芯片”的模块,它将与基于 NVIDIA Hopper™ 架构的 GPU一同应用于大型 HPC 和AI 应用。这两款超级芯片采用相同的底层 CPU 架构及 NVLink-C2C 互连。
NVIDIA 创始人兼首席执行官黄仁勋表示: “一种新型的数据中心已经出现,它就是能对海量数据进行处理和提炼以实现智能的 AI 工厂。Grace CPU 超级芯片能够在一个芯片中提供最高的性能、内存带宽以及 NVIDIA 软件平台,将作为‘全球 AI 基础设施的 CPU’ 大放异彩。”
5、NVLink 芯片级互联系统:
NVIDIA® NVLink®-C2C,这是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与NVIDIA GPU、CPU、DPU、NIC 和 SOC 之间实现一致的互连,助力数据中心打造新一代的系统级集成。采用先进封装技术,与英伟达芯片上的PCIe Gen 5相比,能源效率高25倍,面积效率高90倍。英伟达还将支持通用小芯片互连传输通道UCIe标准。
借助先进的封装技术,NVIDIA NVLink-C2C 互连链路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面积效率高出 90 倍,可实现每秒 900 GB 乃至更高的一致互联带宽。
NVIDIA 超大规模计算副总裁 Ian Buck 表示:“为应对摩尔定律发展趋缓的局面,必须开发小芯片和异构计算。我们利用 NVIDIA 在高速互连方面世界一流的专业知识,开发出统一、开放的技术,这将有助于我们的 GPU、DPU、NIC、CPU 和 SoC 通过小芯片构建出新型的集成产品。”
今日发布的 NVIDIA Grace™ 超级芯片系列以及去年发布的 Grace Hopper 超级芯片均采用了NVIDIA NVLink-C2C 技术来连接处理器芯片。NVLink-C2C 现已为半定制芯片开放,支持其与 NVIDIA 技术的集成。
NVIDIA NVLink-C2C 依托于 NVIDIA 世界一流的 SERDES 和 LINK 设计技术,可从 PCB 级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。
除 NVLink-C2C 之外,NVIDIA 还将支持本月早些时候发布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连传输通道)标准。与 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 标准,也可以使用 NVLink-C2C,后者经过优化,延迟更低、带宽更高、能效更高。
NVLink-C2C 的一些关键特性包括:
● 高带宽 —— 支持处理器和加速器之间的高带宽一致性数据传输
● 低延迟 —— 支持处理器和加速器之间的原子操作,对共享数据进行快速同步和高频率更新
● 低功耗和高密度 —— 采用先进的封装,与 NVIDIA 芯片上的 PCIe Gen 5 相比,能源效率提高 25 倍,面积效率提高 90 倍
● 工业标准支持 —— 支持 Arm AMBA CHI 或 CXL 工业标准协议,实现设备间的互操作性
6、Spectrum-4:全球首个400Gbps端到端网络平台
NVIDIA 于今日发布NVIDIA Spectrum™-4。它是新一代的以太网平台,将为大规模数据中心基础设施提供所需的超高网络性能和强大安全性。
作为全球首个 400Gbps 端到端网络平台,NVIDIA Spectrum-4 的交换吞吐量比前几代产品高出 4 倍,达到 51.2 Tbps。该平台由 NVIDIA Spectrum-4 交换机系列、ConnectX®-7 智能网卡、NVIDIA BlueField® -3 DPU 和 DOCA™ 数据中心基础设施软件组成,能够大幅加速大规模云原生应用。
Spectrum-4 交换机实现了纳秒级计时精度,相比普通毫秒级数据中心提升了五到六个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了 2 倍,交换机数量减少到 1/4 ,功耗降低了 40%。
Spectrum 平台赋能了 NVIDIA Omniverse™ 平台,实现用于 3D 设计协作和模拟的精确空间和时间模拟。Spectrum-3 交换机的网络架构能够连接 32 台 OVX 服务器,形成 OVX 超级集群。
NVIDIA Spectrum-4 ASIC 和 SN5000 交换机系列基于4N工艺,包含 1000 多亿个晶体管以及经过简化的收发器设计,具有领先的能效和总拥有成本。凭借支持 128 个 400GbE 端口的 51.2Tbps 聚合 ASIC 带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4 优化了基于融合以太网的RDMA(RDMA over Converged Ethernet)网络架构,并显著提升了数据中心的应用速度。
7、Clara Holoscan MGX:可供医疗设备行业在边缘开发和部署实时AI应用的计算平台
NVIDIA 今日发布 Clara Holoscan MGX™,这是一个可供医疗设备行业在边缘开发和部署实时 AI 应用的平台,专为满足必要的监管标准而设计。
Clara Holoscan MGX 能够扩展 Clara Holoscan 平台,提供一体化的医疗级参考架构以及长期软件支持,以加速医疗设备行业的创新。它通过处理高吞吐量数据流来提供实时洞见,将最新的传感器创新带到了边缘计算。从机器人手术到研究生物学的新方法,外科医生和科学家需要医疗设备逐步发展成为持续传感系统,进而更好地推动疾病的研究和治疗。
作为 Clara Holoscan MGX 的一部分,NVIDIA 提供基于长使用寿命 NVIDIA 组件的硬件参考设计,以及 10 年的长期软件支持,包括针对软件的 IEC62304 文档,以及来自嵌入式计算合作伙伴的 IEC60601 认证报告。
多家嵌入式计算制造商,包括 ADLINK、Advantech、Dedicated Computing、Kontron、Leadtek, MBX Systems、Onyx Healthcare、Portwell, Prodrive Technologies、RYOYO Electro 和 Yuan High-Tech将率先基于 Clara Holoscan MGX 参考设计开发产品,以满足全球医疗设备行业的需求。
1、H100 GPU
NVIDIA Hopper™ 以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。与上一代产品相比,该平台实现了数量级的性能飞跃。H100 GPU 集成了 800 亿个晶体管,拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink® 互连技术等突破性功能,可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。
黄仁勋表示:“数据中心正在转变成‘AI 工厂’。它们处理大量数据,以实现智能。NVIDIA H100 是全球 AI 基础设施的引擎,让企业能够利用其实现自身 AI 业务的加速。”
H100 技术突破
H100 NVIDIA GPU 为加速大规模 AI 和 HPC 设定了新的标准,带来了六项突破性创新:
● 世界最先进的芯片 —— H100 由 800 亿个晶体管构建而成,这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺,因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度,并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。
● 新的 Transformer 引擎 —— Transformer 现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍。
● 第二代安全多实例 GPU —— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例,以处理不同类型的作业。与上一代产品相比,在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置,将 MIG 的部分能力扩展了 7 倍。
● 机密计算 —— H100 是全球首款具有机密计算功能的加速器,可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。
● 第 4 代 NVIDIA NVLink —— 为加速大型 AI 模型,NVLink 结合全新的外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多可以连接多达 256 个 H100 GPU,相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络,带宽高出9倍。
● DPX 指令 —— 新的 DPX 指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,而后者可用于 DNA 和蛋白质分类与折叠的序列比对。
H100 的多项技术创新相结合,进一步扩大了 NVIDIA在 AI 推理和训练的领导地位,利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时满足实时对话式 AI 所需的次秒级延迟。利用 H100,研究人员和开发者能够训练庞大的模型,如包含 3950 亿个参数的混合专家模型,训练速度加速高达9倍,将训练时间从几周缩短到几天。
2、DGX H100 AI 平台
NVIDIA 的第四代 DGX™ 系统 DGX H100 配备 8 块 H100 GPU,以全新的 FP8 精度提供 32 Petaflop 的 AI 性能,并支持扩展,能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的海量计算需求,比上一代系统性能高 6 倍。
DGX H100 系统中的每块 GPU 都通过第四代 NVLink 连接,可提供 900GB/s 的带宽,与上一代相比,速度提升了 1.5 倍。NVSwitch™ 支持所有八块 H100 GPU 通过 NVLink 全互联。新一代 NVIDIA DGX SuperPOD™ 超级计算机可通过外部 NVLink Switch 互联,最多可连接 32 个 DGX H100 节点。
DGX H100 系统是新一代 NVIDIA DGX POD™ 和 NVIDIA DGX SuperPOD™ AI 基础设施平台的构建模块。新的 DGX SuperPOD 架构采用了一个全新的 NVIDIA NVLink Switch 系统,通过这一系统最多可连接 32 个节点,总计 256 块 H100 GPU。
3、Eos超级计算机:全球运行速度最快的AI超级计算机
NVIDIA Eos 预计将提供 18.4 Exaflops 的 AI 计算性能,比日本的 Fugaku 超级计算机快 4 倍,后者是目前运行速度最快的系统。在传统的科学计算方面,Eos 预计将提供 275 Petaflop 的性能。
NVIDIA 今日宣布推出首款面向 AI 基础设施和高性能计算的基于 Arm® Neoverse™ 的数据中心专属 CPU,其可提供最高的性能,是当今领先服务器芯片内存带宽和能效的两倍。
4、Grace CPU超级芯片
NVIDIA Grace™ CPU 超级芯片由两个 CPU 芯片组成,它们之间通过NVLink®-C2C互连在一起。NVLink®-C2C 是一种新型的高速、低延迟、芯片到芯片的互连技术。
Grace CPU 超级芯片是去年NVIDIA发布的首款由 CPU-GPU 集成的“Grace Hopper 超级芯片”的模块,它将与基于 NVIDIA Hopper™ 架构的 GPU一同应用于大型 HPC 和AI 应用。这两款超级芯片采用相同的底层 CPU 架构及 NVLink-C2C 互连。
NVIDIA 创始人兼首席执行官黄仁勋表示: “一种新型的数据中心已经出现,它就是能对海量数据进行处理和提炼以实现智能的 AI 工厂。Grace CPU 超级芯片能够在一个芯片中提供最高的性能、内存带宽以及 NVIDIA 软件平台,将作为‘全球 AI 基础设施的 CPU’ 大放异彩。”
5、NVLink 芯片级互联系统:
NVIDIA® NVLink®-C2C,这是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与NVIDIA GPU、CPU、DPU、NIC 和 SOC 之间实现一致的互连,助力数据中心打造新一代的系统级集成。采用先进封装技术,与英伟达芯片上的PCIe Gen 5相比,能源效率高25倍,面积效率高90倍。英伟达还将支持通用小芯片互连传输通道UCIe标准。
借助先进的封装技术,NVIDIA NVLink-C2C 互连链路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面积效率高出 90 倍,可实现每秒 900 GB 乃至更高的一致互联带宽。
NVIDIA 超大规模计算副总裁 Ian Buck 表示:“为应对摩尔定律发展趋缓的局面,必须开发小芯片和异构计算。我们利用 NVIDIA 在高速互连方面世界一流的专业知识,开发出统一、开放的技术,这将有助于我们的 GPU、DPU、NIC、CPU 和 SoC 通过小芯片构建出新型的集成产品。”
今日发布的 NVIDIA Grace™ 超级芯片系列以及去年发布的 Grace Hopper 超级芯片均采用了NVIDIA NVLink-C2C 技术来连接处理器芯片。NVLink-C2C 现已为半定制芯片开放,支持其与 NVIDIA 技术的集成。
NVIDIA NVLink-C2C 依托于 NVIDIA 世界一流的 SERDES 和 LINK 设计技术,可从 PCB 级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。
除 NVLink-C2C 之外,NVIDIA 还将支持本月早些时候发布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连传输通道)标准。与 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 标准,也可以使用 NVLink-C2C,后者经过优化,延迟更低、带宽更高、能效更高。
NVLink-C2C 的一些关键特性包括:
● 高带宽 —— 支持处理器和加速器之间的高带宽一致性数据传输
● 低延迟 —— 支持处理器和加速器之间的原子操作,对共享数据进行快速同步和高频率更新
● 低功耗和高密度 —— 采用先进的封装,与 NVIDIA 芯片上的 PCIe Gen 5 相比,能源效率提高 25 倍,面积效率提高 90 倍
● 工业标准支持 —— 支持 Arm AMBA CHI 或 CXL 工业标准协议,实现设备间的互操作性
6、Spectrum-4:全球首个400Gbps端到端网络平台
NVIDIA 于今日发布NVIDIA Spectrum™-4。它是新一代的以太网平台,将为大规模数据中心基础设施提供所需的超高网络性能和强大安全性。
作为全球首个 400Gbps 端到端网络平台,NVIDIA Spectrum-4 的交换吞吐量比前几代产品高出 4 倍,达到 51.2 Tbps。该平台由 NVIDIA Spectrum-4 交换机系列、ConnectX®-7 智能网卡、NVIDIA BlueField® -3 DPU 和 DOCA™ 数据中心基础设施软件组成,能够大幅加速大规模云原生应用。
Spectrum-4 交换机实现了纳秒级计时精度,相比普通毫秒级数据中心提升了五到六个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了 2 倍,交换机数量减少到 1/4 ,功耗降低了 40%。
Spectrum 平台赋能了 NVIDIA Omniverse™ 平台,实现用于 3D 设计协作和模拟的精确空间和时间模拟。Spectrum-3 交换机的网络架构能够连接 32 台 OVX 服务器,形成 OVX 超级集群。
NVIDIA Spectrum-4 ASIC 和 SN5000 交换机系列基于4N工艺,包含 1000 多亿个晶体管以及经过简化的收发器设计,具有领先的能效和总拥有成本。凭借支持 128 个 400GbE 端口的 51.2Tbps 聚合 ASIC 带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4 优化了基于融合以太网的RDMA(RDMA over Converged Ethernet)网络架构,并显著提升了数据中心的应用速度。
7、Clara Holoscan MGX:可供医疗设备行业在边缘开发和部署实时AI应用的计算平台
NVIDIA 今日发布 Clara Holoscan MGX™,这是一个可供医疗设备行业在边缘开发和部署实时 AI 应用的平台,专为满足必要的监管标准而设计。
Clara Holoscan MGX 能够扩展 Clara Holoscan 平台,提供一体化的医疗级参考架构以及长期软件支持,以加速医疗设备行业的创新。它通过处理高吞吐量数据流来提供实时洞见,将最新的传感器创新带到了边缘计算。从机器人手术到研究生物学的新方法,外科医生和科学家需要医疗设备逐步发展成为持续传感系统,进而更好地推动疾病的研究和治疗。
作为 Clara Holoscan MGX 的一部分,NVIDIA 提供基于长使用寿命 NVIDIA 组件的硬件参考设计,以及 10 年的长期软件支持,包括针对软件的 IEC62304 文档,以及来自嵌入式计算合作伙伴的 IEC60601 认证报告。
多家嵌入式计算制造商,包括 ADLINK、Advantech、Dedicated Computing、Kontron、Leadtek, MBX Systems、Onyx Healthcare、Portwell, Prodrive Technologies、RYOYO Electro 和 Yuan High-Tech将率先基于 Clara Holoscan MGX 参考设计开发产品,以满足全球医疗设备行业的需求。