1/05/2024,光纤在线讯,据逍遥科技消息:AMD 发布了下一代人工智能加速器 MI300,采用先进的 3D 芯片集成技术,像层叠蛋糕一样垂直堆叠超过 13 块芯片。芯片和三维集成技术的结合实现了无与伦比的计算密度,并将关键机器学习工作负载的性能提升了 3.4 倍。MI300 融合了 AMD 最新的 CPU、GPU 和 I/O 技术,基准测试表明它超越了 Nvidia 和 Intel 的竞争解决方案。
简介
AMD 在最近举行的 AMD Advancing AI 大会上披露了即将推出的 MI300 AI 加速芯片的详细规格。随着大型语言模型和神经网络等人工智能工作负载越来越复杂,加速器需要更高的性能和更大的互连带宽。MI300 并没有完全依赖摩尔定律的改进,而是利用最先进的 3D 集成技术实现了性能上的重大飞跃。
图 1. AMD Instinct MI300a
先进的三维集成技术
MI300 的核心是先进的三维集成方案,采用台积电的 SoIC 和 CoWoS 集成技术,垂直堆叠 13 个硅芯片。这使得计算 (XCD)、CPU (CCD)、I/O、内存和结构互连的配置密度达到最高。较小的模块化 XCD 和 CCD 芯片采用台积电领先的 N5 工艺生产,产量更高,而较大的 I/O 和互连采用 N6 工艺生产,成本效益更高。所有互连都采用垂直方式,高带宽链路的速率达到 17 TB/s。AMD 在模块化 CPU 和 V-Cache 产品方面的丰富经验使其能够以较低的风险执行如此雄心勃勃的 3D 路线图。
图 2. 堆叠在 I/O 上的计算和人工智能芯片组
图 3. 为了使所有芯片排列整齐,IOD 芯片必须互为镜像,加速器(XCD)和计算(CCD)芯片必须旋转。
与竞争对手的比较
与竞争对手的超级芯片(如 Nvidia 的 Hopper/Grace 和 Intel 的 Ponte Vecchio)相比,MI300 采用了明显不同的异构计算集成方法。这些芯片依赖于单个大型芯片的横向连接,而 AMD 则采用模块化的 "乐高积木 "式集成,将许多较小的芯片堆叠成密集的三维配置。在可能的情况下重复使用现有 IP,并按最佳工艺节点拆分工作负载,使 AMD 在产量、经济性和更简单的互连路由方面更具优势。
无与伦比的人工智能计算性能
利用先进的台积电工艺技术和堆叠配置,MI300 的计算密度和内存带宽达到了前所未有的水平。最新的 CDNA3 架构可加速 INT4 和 INT8 精度模式下的人工智能关键数学函数,从而实现大型神经网络和模型的超并行化。基准测试表明,MI300 的 INT8 teraflops 性能是 Nvidia H100 的 1.7 倍。垂直整合为每个 XCD 堆栈提供了 8.3 TB/秒的惊人带宽。这使得关键机器学习内核的性能提高了 3.4 倍。
软件和部署
为了释放 MI300 的潜能,AMD 正在提供一个增强的软件栈,从低阶固件到支持 oneAPI 的 ROCm 5.0 等优化库。美国Oak Ridge国家实验室等主要高性能计算客户正在将MI300集成到即将推出的Exascale级超级计算机(如Frontier和El Capitan)中,这将加速气候、能源和健康领域的科学发现。凭借灵活的配置,云服务提供商和企业数据中心客户也将部署 MI300 的人工智能训练和推理功能。
结论
尖端的三维集成和先进的台积电工艺节点使 AMD 能够利用 MI300 实现前所未有的人工智能加速能力,从而超越竞争对手的产品。13 个以上芯片的模块化堆叠创造了最高密度配置,为大规模并行 XCD 计算提供了充足的带宽。MI300 与 AMD 广泛的芯片组和互连 IP 相结合,为人工智能计算密度、吞吐量和可扩展性树立了新的标杆,美国Oak Ridge国家实验室等客户计划将其用于整个科学计算领域。更广泛地说,MI300延续了 AMD 在加速计算领域的创新领导者地位。
参考来源:
https://spectrum.ieee.org/amd-mi300