中信证券关于ChatGPT对GPU算力的需求预测

发布时间：2023-02-21 10:40:59 热度：1489

2/21/2023，光纤在线讯，ChatGPT的背后是超大规模人工智能预训练模型(大模型)和GPU算力。中信证券研究部日前发表研报分析ChatGPT发展对背后GPU算力的需求预测。研报的核心观点：OpenAI预计人工智能科学研究要想取得突破，所需要消耗的计算资源每3~4个月就要翻一倍，资金也需要通过指数级增长获得匹配。

 具体来说，研报分析，在算力方面，GPT-3.5（ChatGPT背后的大语言模型）在微软Azure AI超算基础设施（由一万个英伟达V100 GPU组成的高带宽集群）上进行训练，总算力消耗约 3640PF-days（即每秒一千万亿次计算，运行3640天）。在大数据方面，GPT-2用于训练的数据取自于Reddit上高赞的文章，数据集共有约800万篇文章，累计体积约40G；GPT-3模型的神经网络是在超过45TB的文本上进行训练的，数据相当于整个维基百科英文版的160倍。

 按照量子位给出的数据，将一个大型语言模型（LLM）训练到GPT-3级的成本高达460万美元。采购一片英伟达顶级GPU成本为8万元，GPU服务器成本通常超过40万元。对于ChatGPT而言，支撑其算力基础设施至少需要上万颗英伟达GPU A100，一次模型训练成本超过1200万美元。

   OpenAI公司CEO阿尔特曼在推特上回答马斯克的问题时表示，在用户与ChatGPT的每次交互中，OpenAI花费的计算成本为“个位数美分”，随着ChatGPT变得流行，每月的计算成本可能达到数百万美元。

   ChatGPT背后所需要的GPU（Graphics Processing Unit，图形处理器）是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256（GeForce 256）绘图处理芯片时首先提出的概念。相比CPU，GPU 的逻辑运算单元小而多，控制器功能简单，缓存也较少；GPU 单个运算单元（ALU）处理能力弱于 CPU，但是数量众多的ALU可以同时工作，当面对高强度并行计算时，其性能要优于 CPU；GPU可以利用多个ALU来做并行计算，而CPU只能按照顺序进行串行计算，同样运行3000次的简单运算，CPU需要3000个时钟周期，而配有3000个ALU的GPU运行只需要1个时钟周期。

 当前，无论是大语言模型还是GPU，国内同行都距离ChatGPT的水平相距较远。大模型高昂的训练成本让普通创业公司难以为继，因此参与者基本都是科技巨头。在国内科技公司中，阿里巴巴达摩院在2020年推出了M6大模型，百度在2021年推出了文心大模型，腾讯在2022年推出了混元AI大模型。这些模型不仅在参数量上达到了千亿级别，而且数据集规模也高达TB级别，想要完成这些大模型的训练，就至少需要投入超过1000PetaFlop/s-day的计算资源。通用GPU方面水平也相差国外至少5-10年。目前国内GPGPU芯片的先进制程多集中在7nm，例如已经量产的天数智芯“天垓100”，已经推出的壁仞BR100、沐曦MXN；此外，芯动科技的“风华一号”以及摩尔线程的MTT S2000采用12nm制程。对比已经进入4nm时代的英伟达 H100还有较大差距。

  差距就是机会，面对以ChatGPT为代表的新一代人工智能技术发展带来的挑战，属于我们的机会需要我们努力去争取。