AMD携手台积电发布人工智能超级芯片 MI300 3D堆叠技术再创高峰

发布时间：2024-01-05 14:33:00 热度：1164

1/05/2024，光纤在线讯，据逍遥科技消息：AMD 发布了下一代人工智能加速器 MI300，采用先进的 3D 芯片集成技术，像层叠蛋糕一样垂直堆叠超过 13 块芯片。芯片和三维集成技术的结合实现了无与伦比的计算密度，并将关键机器学习工作负载的性能提升了 3.4 倍。MI300 融合了 AMD 最新的 CPU、GPU 和 I/O 技术，基准测试表明它超越了 Nvidia 和 Intel 的竞争解决方案。

简介
AMD 在最近举行的 AMD Advancing AI 大会上披露了即将推出的 MI300 AI 加速芯片的详细规格。随着大型语言模型和神经网络等人工智能工作负载越来越复杂，加速器需要更高的性能和更大的互连带宽。MI300 并没有完全依赖摩尔定律的改进，而是利用最先进的 3D 集成技术实现了性能上的重大飞跃。

图 1. AMD Instinct MI300a

先进的三维集成技术
MI300 的核心是先进的三维集成方案，采用台积电的 SoIC 和 CoWoS 集成技术，垂直堆叠 13 个硅芯片。这使得计算（XCD）、CPU （CCD）、I/O、内存和结构互连的配置密度达到最高。较小的模块化 XCD 和 CCD 芯片采用台积电领先的 N5 工艺生产，产量更高，而较大的 I/O 和互连采用 N6 工艺生产，成本效益更高。所有互连都采用垂直方式，高带宽链路的速率达到 17 TB/s。AMD 在模块化 CPU 和 V-Cache 产品方面的丰富经验使其能够以较低的风险执行如此雄心勃勃的 3D 路线图。

图 2. 堆叠在 I/O 上的计算和人工智能芯片组

图 3. 为了使所有芯片排列整齐，IOD 芯片必须互为镜像，加速器（XCD）和计算（CCD）芯片必须旋转。

与竞争对手的比较
     与竞争对手的超级芯片（如 Nvidia 的 Hopper/Grace 和 Intel 的 Ponte Vecchio）相比，MI300 采用了明显不同的异构计算集成方法。这些芯片依赖于单个大型芯片的横向连接，而 AMD 则采用模块化的 "乐高积木 "式集成，将许多较小的芯片堆叠成密集的三维配置。在可能的情况下重复使用现有 IP，并按最佳工艺节点拆分工作负载，使 AMD 在产量、经济性和更简单的互连路由方面更具优势。

无与伦比的人工智能计算性能
     利用先进的台积电工艺技术和堆叠配置，MI300 的计算密度和内存带宽达到了前所未有的水平。最新的 CDNA3 架构可加速 INT4 和 INT8 精度模式下的人工智能关键数学函数，从而实现大型神经网络和模型的超并行化。基准测试表明，MI300 的 INT8 teraflops 性能是 Nvidia H100 的 1.7 倍。垂直整合为每个 XCD 堆栈提供了 8.3 TB/秒的惊人带宽。这使得关键机器学习内核的性能提高了 3.4 倍。

软件和部署
     为了释放 MI300 的潜能，AMD 正在提供一个增强的软件栈，从低阶固件到支持 oneAPI 的 ROCm 5.0 等优化库。美国Oak Ridge国家实验室等主要高性能计算客户正在将MI300集成到即将推出的Exascale级超级计算机（如Frontier和El Capitan）中，这将加速气候、能源和健康领域的科学发现。凭借灵活的配置，云服务提供商和企业数据中心客户也将部署 MI300 的人工智能训练和推理功能。

结论
     尖端的三维集成和先进的台积电工艺节点使 AMD 能够利用 MI300 实现前所未有的人工智能加速能力，从而超越竞争对手的产品。13 个以上芯片的模块化堆叠创造了最高密度配置，为大规模并行 XCD 计算提供了充足的带宽。MI300 与 AMD 广泛的芯片组和互连 IP 相结合，为人工智能计算密度、吞吐量和可扩展性树立了新的标杆，美国Oak Ridge国家实验室等客户计划将其用于整个科学计算领域。更广泛地说，MI300延续了 AMD 在加速计算领域的创新领导者地位。

参考来源：https://spectrum.ieee.org/amd-mi300