新浪科技

关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露

品玩

关注

品玩7月11日讯,据Twitter博主Yam Peleg的推文,发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。

  • 参数数量:GPT-4比GPT-3大10倍,估计参数数量在120层、1.8万亿左右。
  • MoE架构即Mixture-of-Experts架构,这部分信息已经确认,OpenAI通过利用MoE架构保持一定的成本,包含16个Experts,每一个都是一个MLP.2,约1110亿参数,每个前向传播都被路由到这些专家中
  • MoE路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单,大约就是为每个attention共享550亿参数的方式。
  • 推理:每一个前向传播的推理(生成一个token)需要2800亿参数以及560 TFLOPS,这与纯dense模型每次正向传递所需的约1.8万亿参数和3700 TFLOPS形成了鲜明对比。
  • 训练数据集:GPT-4在约13万亿tokens上训练。这不是指不同的token数量,是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练,基于代码的数据集做了4次epoch训练。
  • GPT-4 32K:每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。
  • Batch Size:batch size是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI的Batch Size达到了6000万!也就是每个专家大约有750万的token数量,但是并不是每个专家都能看到所有的tokens。
  • 并行策略:由于NVLink的限制,OpenAI训练GPT-4做了8路tensor并行,15路的pipeline并行。
  • 训练成本:OpenAI训练GPT-4的FLOPS约2.15e25,在2.5万个A100上训练了90-100天左右时间(MFU约32%到36%),如果是一个A100约1美元,那么训练成本约6300万美元(如果现在使用H100可能只要2150万美元)。
  • MoE的取舍:使用MoE之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。
  • GPT-4的推理成本:比1750亿的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一点。估计约1k tokens要0.0049美元(128个A100)。
  • MOA:Multi Query Attention,和其他人一样,都是正常使用MOA。因为只需要1个head,显存大大下降,但是32K依然无法在A100 40G运行。
  • 持续batching:OpenAI使用可变的batch size和持续batching方法。可以平衡推理成本和推理速度。
  • Vision Multi-Modal:GPT-4的多模态部分是单独一个visiion encoder,带有cross attention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的,还不够成熟。Vision部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频,包括使用whisper翻译的脚本与抽帧结果。
  • 推理架构:推理是在128个GPU集群上运行的,在不同的区域有不同的集群。每个节点有8个GPU,包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。

【东吴基金出手限购,今年产品收益达71%】近日,东吴基金发布公告称,公司自2023年7月10日起对东吴新趋势价值线灵活配置基金的相关业务限额进行调整,在暂停该基金的大额申购(含定期定额)、大额转换转入业务期间,单个基金账户对单只基金日累计申购和转入金额不得超过20万元。如单日单个基金账户累计申购和转入金额超过20万元的,超出部分将有权予以拒绝。值得注意的是,这是该基金年内第二次限购。

美股赛富时涨逾4%,8月起产品平均提价9%。

【捷佳伟创:与晶澳太阳能签订日常40.4亿元经营重大合同】捷佳伟创公告,2022年7月10日至2023年7月10日期间,公司及下属子公司与晶澳太阳能有限公司及其下属子公司在连续十二个月内签订了日常经营合同,合同累计金额为人民币40.4亿元(含税),占公司2022年度经审计主营业务收入的72.86%。

【东吴基金出手限购,今年产品收益达71%】近日,东吴基金发布公告称,公司自2023年7月10日起对东吴新趋势价值线灵活配置基金的相关业务限额进行调整,在暂停该基金的大额申购(含定期定额)、大额转换转入业务期间,单个基金账户对单只基金日累计申购和转入金额不得超过20万元。如单日单个基金账户累计申购和转入金额超过20万元的,超出部分将有权予以拒绝。值得注意的是,这是该基金年内第二次限购。

美股赛富时涨逾4%,8月起产品平均提价9%。

相关视频

相关新闻点击查看更多

推荐阅读点击查看更多

起诉京东方专利侵权后:三星决定将向韩企免费授权

秋瓷炫于晓光回归夫妻综艺 谈出轨风波"让人失望"

挖人挖到中超!他空降沙特,4亿年薪翻了一倍,下半辈子衣食无忧

43小贤爱足球

张兰又曝猛料,内涵具俊晔光头原因已跑路,大S带娃投奔汪小菲?

5小七爱灵灵

前央视女主持,离婚1年后上《非诚勿扰》相亲,1小时被富豪牵走

62大眼冲浪选手

15年标准之争见分晓,日本押宝失败遭惨败,中国选对了成最大赢家

9深度军备
火箭官宣霍乐迪加盟:7新援全签约完毕 狄龙称史密斯或成联盟最佳

原来她已去世8年!因拍戏劳累而亡,器官捐赠救活8条人命

36大眼冲浪选手
李玟果然留有后手,所有房产,全部没有按揭……

李玟果然留有后手,所有房产,全部没有按揭……

赵瞾说事

放弃3600万美元,只能拿底薪!加盟湖人成最后归宿,可复仇全联盟

老梁体育评论

姚明带全家游玩西双版纳!全程呵护家人,其女儿身高暴涨太亮眼!

2篮球殿堂

美军拦截失败,俄战机猛轰亲美武装总部,炸毁武器库端掉指挥中心

5深度军备

11队竞争!曼联4000万中场竟成香饽饽?尤文旧将拒赴沙特愿投国米

1易说足坛

不出所料!李玟死不瞑目,外国老公开始跟86岁老母亲抢夺财产了

241李洪伙

王思聪现身当伴郎,站角落不出风头,新郎新娘背景曝光都是富二代

2大鲜评

火箭赢麻了!史密斯展现巨星相,白魔成最大惊喜,小卡接班人诞生

1老梁体育评论

欧美巨星人设崩了?瑞奇马丁离婚内幕曝光,婚内频出轨,老公难忍

1新金牌娱乐观察家
曾对华露出獠牙,两国现在“很着急”

“中国第一美男”近况刷屏:因爱国被封杀,63岁单身无子,迷倒亿万国人却孤独一生

6慈怀-朴趣

关之琳也顶不住“金钱攻势”?为内地网红直播站台,脸又僵又怪

5八卦先生
请输入评论内容

说说你的看法

打开APP

举报成功

举报

请您选择举报的原因
意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~