导读:据外媒报道,英伟达最新AI芯片Blackwell因机架过热和连接异常故障,导致微软、亚马逊AWS、谷歌、Meta等客户削减订单,股价一度重挫近5%。
1/15/2025,光纤在线讯,美国时间 1 月 13 日,英伟达最新一代人工智能芯片 Blackwell 在部署至数据中心时遭遇严重技术问题,引发行业震动。其主要故障表现为服务器机架过热及芯片连接异常,这对数据中心的部署进程形成了极大阻碍。
微软、亚马逊旗下 AWS、谷歌、Meta 等英伟达的重要客户纷纷削减了部分 Blackwell GB200 机架的订单。这些科技巨头原本对 Blackwell 芯片寄予厚望,因其与上一代产品 Hopper 相比,能源效率大幅提高了四倍。此前每家公司都下达了价值超 100 亿美元的订单,但如今的技术问题使他们改变了计划。
以微软为例,作为 OpenAI 的服务器提供商,原计划在凤凰城的一个设施中安装至少包含 5 万枚 Blackwell 芯片的 GB200 机架。然而,由于 Blackwell 芯片自去年起便延迟交付,OpenAI 要求微软尽早提供上一代英伟达 H200 芯片,致使凤凰城数据中心如今已装满 H200 芯片。目前微软计划在今年 3 月于该设施中安装约 12000 枚 Blackwell 芯片的 GB200 机架,仅约为最初计划的四分之一,且还打算在今年晚些时候 GB300 Blackwell 机架上市时进行采购。
2024年11月时,英伟达首席执行官黄仁勋曾表示,Blackwell芯片已全面投产,预计未来几个季度供不应求,且最新财季销售有望超预期。但此前有报道称,英伟达在装有 72 个处理器的服务器中使用时,每个机架的功耗可能高达 120 千瓦,产生严重过热现象,不仅限制了 GPU 性能,还增加了组件损坏风险,给数据中心的散热和电力供应以及新数据中心启用和运营带来诸多挑战,尽管黄仁勋否认了这一报道,但英伟达的 Blackwell 芯片之后也经历了多次延迟交付,此次又因过热和互联故障等问题再次延迟交付。部分客户在削减订单后,开始寻求替代方案。一些客户选择等待可能在今年下半年推出的改进版本,另一些则计划采购英伟达的旧款 AI 芯片。尽管英伟达推荐整机架方案,但部分客户倾向于单独购买 Blackwell 芯片自行组装。
受此消息影响,英伟达股价在美股早盘一度跌超 4.7%,最终收跌 1.97%。目前尚不清楚客户削减订单是否会对英伟达销售造成长期影响,毕竟可能存在其他买家购买问题 GB200 服务器机架。此外,美国政府于 1 月 13 日发布的人工智能相关出口管制措施,也可能对英伟达等美国主要芯片企业产生影响。英伟达公司已发表声明,批评该管制措施会 “阻碍技术革新和经济增长”,其生产的尖端 AI 半导体预计将成为管制对象。
【编者短评】
此次英伟达AI芯片Blackwell的故障事件,不仅对英伟达自身的业务发展产生了重大影响,也引发了整个行业对AI芯片技术研发和供应链稳定性的深入思考。一方面,这凸显了在高性能计算领域,技术进步与产品稳定性之间需要找到更好的平衡。英伟达作为行业领导者,在追求更高性能的同时,必须更加注重产品的可靠性和稳定性,以避免类似事件的再次发生。
另一方面,这一事件也为英伟达的竞争对手提供了机遇。AMD和其他高性能计算解决方案提供商可能会吸引英伟达的客户群体,尤其是在这些客户面临推迟交付的问题时,这也促使消费者在选择硬件时更加关注产品的稳定性与性价比,尤其是在AI和云计算逐渐成为市场主流的背景下。
光纤在线公众号
更多猛料!欢迎扫描左方二维码关注光纤在线官方微信