SC23：从超级计算到超级芯片，期待超级光连接

发布时间：2023-11-15 15:39:21 热度：1335

11/15/2023，光纤在线讯，一年一度的超级计算大会SC本月12日到17日在美国丹佛举办。作为IEEE和美国计算机协会联合主办的HPC高性能计算领域最著名的国际性盛会，每年都会吸引一些领先的光通信企业参加。今年的SC23上，就有中航光电携数据中心互连解决方案参展。中航的方案包含机柜和板载数据交换、机柜和板间功率传输、机房液冷散热系统和机房网络信号传输等。

HPC和光连接有着密切的联系。正因为如此，虽然我们一直没有参加过这个展会，但是从未失去关注。今年的科技热点是AI，SC23上，用于AI的超级计算机成为竞争热点。英特尔成为第一个报道这方面进展的参展企业。

在本次SC23上，英特尔宣布，有望成为世界上最快超算的美国能源部超级计算机Aurora由10000多台服务器组成的，配备了约21000个英特尔CPU和60000个GPU。目前，Aurora仅使用10000多台服务器中的64台就成功运行了具有1万亿个参数的AI模型。此外，研究人员设法在256个节点上同时运行4个这样的模型。

Aurora中的Max系列GPU是基于英特尔内部开发的Xe HPC架构。英特尔还公布了第二款AI处理器Gaudi 2，它针对许多相同的用例。也在本次SC23发布的升级版Gaudi 3，将采用5纳米工艺制造，前身是作为单片硅实现的，而Gaudi 3则是包含了两个独立的小芯片。

相比Aurora系统2 ExaFlops（百亿亿次）的计算能力，中国的“神威·太湖之光”升级版可以达到1.5 ExaFlops，并也将在SC23上发布其科研成果。根据介绍，海洋之光拥有超过 10 万个定制的 SW26010 Pro 处理器节点，分布在 105 个机柜中，其理论峰值性能为 1.5 E。未来如果可以升级到160个机柜，计算能力可以超过Aurora。

今年最火的公司NVIDIA自然也不会缺席SC23。13日，该公司在SC23上发布了全球最强AI芯片H200，相比其前一代产品H100，性能提升约60%到90%。H200是英伟达H100的升级版，两者同样基于Hopper架构，H200主要升级包括141GB的HBM3e显存，显存带宽从H100的3.35TB/s增加到了4.8TB/s。这一改进将有助于芯片进行“推理”，或者在训练后使用大模型来生成文本、图像或预测。英伟达表示，在处理Meta的大语言模型Llama2（700亿参数）时，H200的推理速度比H100提高了将近1倍。

在SC23大会上，多家顶级超算中心纷纷宣布，即将使用GH200系统构建自己的超级计算机。德国尤里希超级计算中心将在超算JUPITER中使用GH200超级芯片。这台超级计算机将成为欧洲第一台超大规模超级计算机，是欧洲高性能计算联合项目的一部分。由筑波大学和东京大学共同成立的日本先进高性能计算联合中心，将在下一代超级计算机中采用英伟达GH200 Grace Hopper超级芯片构建。

超级计算是人工智能的依托。光互联又是超级计算的关键技术之一。关注SC23，也是关注光通信的未来。让我们拭目以待，今年的超算大会还会给我们带来什么？