德力光电
招商热线:0755-26090113

Meta 携手 NVIDIA 打造大型 AI 研究超级计算机

发布时间:2022-01-26 20:37:09 热度:1050

1/26/2022,光纤在线讯,Meta 今天发布了其AI 研究超级计算机—RSC 。RSC使用了NVIDIA的系统,网络和AI 软件,可实现数千块 GPU 的优化。RSC使用了 760 个 NVIDIA DGX A100 系统,通过 NVIDIA Quantum 200Gb/s InfiniBand 网络相连,可提供 1895 petaflops(每秒千万亿次浮点运算) 的 TF32 性能。一旦今年晚些时候完成部署后, RSC 有望成为安装 NVIDIA DGX A100 系统的最大客户。Meta 平台对 NVIDIA 大加赞赏,之所以选择NVIDIA的技术,是因为他们认为这是迄今为止最强大的研究系统。

1月25日发布的AI 研究超级群集 (AI Research SuperCluster 简称RSC) 已经在训练新模型在推动 AI 发展。

Meta在一篇博客中说道:“我们希望 RSC 能够帮助我们构建全新的 AI 系统,例如它可以为大规模群体(其中每个人讲不同的语言)提供实时语音翻译支持,以便他们可以在参与研究项目时开展无缝协作,也可以一起畅玩 AR 游戏。”

训练 AI 的大型模型

RSC 将在今年晚些时候完全构建完毕,然后,Meta 计划将其用于训练包含超过万亿参数的 AI 模型。这可以推动自然语言处理等领域的发展,助力处理实时识别不良内容等工作。

除了大规模性能之外,Meta 还能以极高的可靠性、安全性、隐私性和灵活性,处理“各种各样的 AI 模型”,用作 RSC 的关键标准。

Meta 的RSC包含数百个 NVIDIA DGX 系统,这些系统由 NVIDIA Quantum InfiniBand 网络相连,来加速其 AI 研究团队的工作。

原理揭秘

这一新型 AI 超级计算机目前使用了 760 个 NVIDIA DGX A100 系统作为其计算节点。它们总共包括 6080 块 NVIDIA A100 GPU,这些 GPU 通过 NVIDIA Quantum 200Gb/s InfiniBand 网络相连,可提供 1895 petaflops(每秒千万亿次浮点运算) 的 TF32 性能。

尽管新冠肺炎 (COVID-19) 带来了挑战,在构建Meta RSC 的过程中,借助 NVIDIA DGX A100 技术,仅用了 18 个月,RSC就从一个纸上的想法变为一台可以正常运行的 AI 超级计算机(如以下视频所示)。

20 倍性能提升

这是 Meta 第二次选择 NVIDIA 技术作为研究基础设施的基础。2017 年,Meta 使用 22000 块 NVIDIA V100 Tensor Core GPU 构建了第一代 AI 研究基础设施,该基础设施可每天处理 35000 项 AI 训练任务。

Meta 的早期基准测试表明,与上一代系统相比,RSC 训练大型 NLP 模型的速度要快达 3 倍,运行计算机视觉作业的速度要快达 20 倍。

在于今年晚些时候推出的第二阶段中,RSC 将扩展至 16000 块 GPU,Meta 认为这些 GPU 可提供高达 5 exaflops 的混合精度 AI 性能。Meta 打算扩展 RSC 的存储系统,以每秒 16 TB 的速度提供高达 1 EB 的数据。

可扩展架构
NVIDIA AI 技术适用于各种规模的企业。

NVIDIA DGX 包含全套 NVIDIA AI 软件,能够轻松地从单个系统扩展至基于内部私有云或托管供应商运行的 DGX SuperPOD。客户还可以通过 NVIDIA DGX Foundry 租赁 DGX 系统。

关于 NVIDIA

NVIDIA(NASDAQ 股票代码:NVDA)于 1999 年发明了 GPU。此举极大推动了 PC 游戏市场的发展、重新定义了现代计算机图形、高性能计算和人工智能。该公司在加速计算和 AI 领域的开创性工作正在重塑价值数万亿美元的行业(例如运输、医疗健康和制造业),并推动许多其他行业的发展。有关更多信息,请访问 https://nvidianews.nvidia.com/。
招商热线:0755-26090113
招商热线:0755-26090113
相关文章