明星华尔街新闻,好内容不容错过
随着以ChatGPT为代表的生成式AI的兴起,其背后基于大模型的人工智能成为行业投资的方向。
所谓的“大模型”通常是使用自监督学习方法在未标记的大数据集上进行训练。在后续其他场景的应用中,开发者只需要对模型进行微调或者使用少量的数据进行二次训练,就可以满足新的应用场景的需求。
腾讯研究院表示,目前的人工智能大多是针对特定场景应用进行训练,生成的模型很难迁移到其他应用,属于“小模型”范畴。整个过程不仅需要大量的人工调参,还需要给机器喂入海量的标注数据,降低了人工智能研发的效率,成本高昂。
相比之下,对大模型的改进可以惠及所有下游小模型,大大提高人工智能的使用场景和研发效率。
同时,在大模型的框架下,ChatGPT使用的GPT模型每一代的参数数量都迅速膨胀,预训练的数据量需求和成本也迅速增加。
国盛证券计算机分析师刘高昌、杨然在2月12日发布的报告《Chatgpt 需要多少算力》中估算,训练一次GPT-3的成本约为140万美元。对于一些较大的LLM模型,培训成本在200万美元至1200万美元之间。这个成本对于全球科技公司来说并不便宜,但仍在可以接受的范围内。
初期投资近10亿美元,每天电费数万美元。
国盛证券估计,今年1月份,平均每天有约1300万独立访问者使用ChatGPT,对应超过3万个Nvidia A100 GPU芯片需求。初期投资成本约8亿美元,每日电费约5万美元。
1)计算假设: NVIDIA A100:根据OneFlow报告,目前,NVIDIA A100是AWS最具成本效益的GPU选择。 NVIDIA DGXA100服务器:单机搭载8颗A100 GPU,AI计算性能约5PetaFLOP/s,单机最大功率约6.5kw,售价约19.9万美元/台。标准机柜:19英寸,42U。单台DGXA100服务器尺寸约为6U,一个标准机柜可容纳约7台DGXA100服务器。那么,单个标准机柜的成本为140万美元,56块A100GPU,计算性能为35PetaFLOP/s,最大功率为45.5kw。
2)芯片需求:日咨询量:根据Similarweb数据,截至2023年1月下旬,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/当周吸引了日咨询量2/3 参观人数高达2500万人次。假设在目前的稳定状态下,每个用户每天询问10个问题左右,那么每天的咨询量约为2.5亿次。 A100运行时数:假设每题平均30个单词,单个单词在A100GPU上消耗约350ms,则一天总共消耗729,167个A100GPU运行时数。 A100需求:这对应每天需要同时计算729,167/24=30,382个Nvidia A100 GPU才能满足当前ChatGPT的访问量。 3)运营成本:初始算力投入:以前面提到的NVIDIA DGXA100为基础,需要30,382/8=3,798台服务器,对应3,798/7=542个机柜。那么,为了满足当前数千万ChatGPT用户的查询量,初始算力投入成本约为542*140=7.59亿美元。每月电费:以用电量计算,542*45.5kw*24h=591,864kwh/天。参考HashrateIndex统计,我们假设美国平均工业电价约为0.08美元/千瓦时。那么每天的电费约为2,369,640*0.08=47,000美元/天。
培训成本:公有云下,100万至千万美元/次
国盛证券根据参数和代币数量估算,训练一次GPT-3的成本约为140万美元;对于一些较大的LLM模型使用相同的计算公式,培训成本从200万美元到1200万美元不等:
1)基于参数数量和token数量,根据OneFlow估算,GPT-3训练一次的成本约为139.8万美元:每个token的训练成本通常约为6N(而推理成本为约2N),其中N是LLM参数数量;假设训练时,模型的FLOPS利用率为46.2%,与TPUv4芯片上训练的PaLM模型(5400亿个参数)一致。
2)对于一些较大的LLM模型(如2800亿参数的Gopher和5400亿参数的PaLM),使用相同的计算公式,可以得出训练成本在200万美元到1200万美元之间。
国盛证券认为,在公有云上,对于谷歌这样的全球科技公司来说,数百万到数千万美元的培训费用并不便宜,但仍然在可以接受的范围内,并不昂贵。
本文不构成个人投资建议,也不考虑个人用户的特殊投资目标、财务状况或需求。用户应考虑本文中包含的任何意见、观点或结论是否适合其特定情况。市场有风险,投资需谨慎,请独立判断和决策。
懂得“花钱”和“赚钱”