中信证券关于ChatGPT对GPU算力的需求预测
发布时间:2023-02-21 10:40:59 热度:1470
2/21/2023,光纤在线讯,ChatGPT的背后是超大规模人工智能预训练模型(大模型)和GPU算力。中信证券研究部日前发表研报分析ChatGPT发展对背后GPU算力的需求预测。研报的核心观点:OpenAI预计人工智能科学研究要想取得突破,所需要消耗的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。
具体来说,研报分析,在算力方面,GPT-3.5(ChatGPT背后的大语言模型)在微软Azure AI超算基础设施(由一万个英伟达V100 GPU组成的高带宽集群)上进行训练,总算力消耗约 3640PF-days(即每秒一千万亿次计算,运行3640天)。在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。
按照量子位给出的数据,将一个大型语言模型(LLM)训练到GPT-3级的成本高达460万美元。采购一片英伟达顶级GPU成本为8万元,GPU服务器成本通常超过40万元。对于ChatGPT而言,支撑其算力基础设施至少需要上万颗英伟达GPU A100,一次模型训练成本超过1200万美元。
OpenAI公司CEO阿尔特曼在推特上回答马斯克的问题时表示,在用户与ChatGPT的每次交互中,OpenAI花费的计算成本为“个位数美分”,随着ChatGPT变得流行,每月的计算成本可能达到数百万美元。
ChatGPT背后所需要的GPU(Graphics Processing Unit,图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念。相比CPU,GPU 的逻辑运算单元小而多,控制器功能简单,缓存也较少;GPU 单个运算单元(ALU)处理能力弱于 CPU,但是数量众多的ALU可以同时工作,当面对高强度并行计算时,其性能要优于 CPU;GPU可以利用多个ALU来做并行计算,而CPU只能按照顺序进行串行计算,同样运行3000次的简单运算,CPU需要3000个时钟周期,而配有3000个ALU的GPU运行只需要1个时钟周期。
当前,无论是大语言模型还是GPU,国内同行都距离ChatGPT的水平相距较远。大模型高昂的训练成本让普通创业公司难以为继,因此参与者基本都是科技巨头。在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。这些模型不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlop/s-day的计算资源。通用GPU方面水平也相差国外至少5-10年。目前国内GPGPU芯片的先进制程多集中在7nm,例如已经量产的天数智芯“天垓100”,已经推出的壁仞BR100、沐曦MXN;此外,芯动科技的“风华一号”以及摩尔线程的MTT S2000采用12nm制程。对比已经进入4nm时代的英伟达 H100还有较大差距。
差距就是机会,面对以ChatGPT为代表的新一代人工智能技术发展带来的挑战,属于我们的机会需要我们努力去争取。
具体来说,研报分析,在算力方面,GPT-3.5(ChatGPT背后的大语言模型)在微软Azure AI超算基础设施(由一万个英伟达V100 GPU组成的高带宽集群)上进行训练,总算力消耗约 3640PF-days(即每秒一千万亿次计算,运行3640天)。在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。
按照量子位给出的数据,将一个大型语言模型(LLM)训练到GPT-3级的成本高达460万美元。采购一片英伟达顶级GPU成本为8万元,GPU服务器成本通常超过40万元。对于ChatGPT而言,支撑其算力基础设施至少需要上万颗英伟达GPU A100,一次模型训练成本超过1200万美元。
OpenAI公司CEO阿尔特曼在推特上回答马斯克的问题时表示,在用户与ChatGPT的每次交互中,OpenAI花费的计算成本为“个位数美分”,随着ChatGPT变得流行,每月的计算成本可能达到数百万美元。
ChatGPT背后所需要的GPU(Graphics Processing Unit,图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念。相比CPU,GPU 的逻辑运算单元小而多,控制器功能简单,缓存也较少;GPU 单个运算单元(ALU)处理能力弱于 CPU,但是数量众多的ALU可以同时工作,当面对高强度并行计算时,其性能要优于 CPU;GPU可以利用多个ALU来做并行计算,而CPU只能按照顺序进行串行计算,同样运行3000次的简单运算,CPU需要3000个时钟周期,而配有3000个ALU的GPU运行只需要1个时钟周期。
当前,无论是大语言模型还是GPU,国内同行都距离ChatGPT的水平相距较远。大模型高昂的训练成本让普通创业公司难以为继,因此参与者基本都是科技巨头。在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。这些模型不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlop/s-day的计算资源。通用GPU方面水平也相差国外至少5-10年。目前国内GPGPU芯片的先进制程多集中在7nm,例如已经量产的天数智芯“天垓100”,已经推出的壁仞BR100、沐曦MXN;此外,芯动科技的“风华一号”以及摩尔线程的MTT S2000采用12nm制程。对比已经进入4nm时代的英伟达 H100还有较大差距。
差距就是机会,面对以ChatGPT为代表的新一代人工智能技术发展带来的挑战,属于我们的机会需要我们努力去争取。