您的位置:首页 > 互联网

OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度

发布时间:2023-08-01 22:07:05  来源:互联网     背景:


新智元报道

编辑:桃子

【新智元导读】对于固定的计算量,小模型和大模型相比性能如何?

模型推断时,避免将算力浪费在缓慢收敛上至关重要。


孙子兵法的一句话「多算胜,少算不胜」,便阐尽了这个道理。


Chinchilla究竟是什么?

较小的模型,乘法少,因此它们跑得更快,训练得也快。

然而,通常人们认为,小模型最终会达到知识能力的极限,学习速度会变慢。

而一个具有更大规模的模型,将超过小模型,并在给定的训练时间内取得更好的性能。

在评估模型如何在训练期间获得最佳性能时,OpenAI和DeepMind都试图绘制帕累托边界(Pareto frontier),但他们没有明确说明是使用该理论绘制的。

不过,OpenAI最近的一句话暗示着这一假设:

我们期望较大的模型总是比较小的模型表现更好。[…] 大小固定的模型将受到GPU容量限制。

这一假设是OpenAI计算帕累托边界的基础。

在此,我们先介绍下DeepMind成员在2022年的工作Chinchilla模型,其技术原理和其他同类模型一样(比如GPT-3) ,区别在于训练参数和数据量。

DeepMind宣称,「对于计算优化训练,模型大小和训练数据集大小应该相等地缩放: 模型大小每增加一倍,训练数据集大小也应该加倍。」


Chinchilla AI通过使用与Gopher相同的计算预算,但具有70B个参数和4倍多的数据,来训练一个计算更优化的模型Chinchilla ,从而来检验这一假设。

验证结果表明Chinchilla 在大量下游评估任务中明显优于 Gopher、GPT-3、Jurassic-1 和 Megatron-Turing NLG。

Chinchilla 在MMLU 基准测试中的平均准确率达到 67.5%,比 Gopher 提高了 7% 以上。


在Chinchilla的工作中,如图显示了不同大小模型大量训练运行的训练损失。

乍一看,这些曲线遵循理论:较小的模型最初损失较低,但最终速度变慢,并被较大模型的曲线超越。


在图表中,较小的模型性能低于较大的模型时,都标记成灰点。灰色线,即帕累托边界,是计算比例定律的方式。

这个假设的问题在于,我们不知道如果让较小的模型训练更长时间会发生什么,因为一旦它被超越,他们就停止训练。

让我们来看LLaMA。

Chinchilla能复刻Llama曲线吗?

今年早些时候,Meta训练了4个不同大小的模型。与其他模型不同,研究人员对每一个模型都进行了大量的训练,即使是规模较小的模型。

他们还发布了训练运行曲线:


1. 每条曲线首先在幂定律中直线下降

2. 然后似乎进入了一个近乎线性的损失递减过程(与相当恒定的知识获取率相对应)

3. 在曲线的最末端,它们都变得稍微平缓

首先,我们想谈谈人们对「曲线末端变平坦」的一个微妙误解。

它们都是通过使用可变学习率的梯度下降法进行训练的(学习率大致是一个超参数,用于确定向梯度方向移动的幅度)。

为了获得良好的训练效果,它们必须不断降低学习率,这样才能在源素材中检测到更微小的模式。

而它们使用的降速公式是最广泛使用的:余弦时间表(the cosine schedule)。


正如从图表中看到的,在训练快结束时,余弦时间表停止以产生良好的、近线性的训练损失曲线的速度降低学习率。

学习速度的减慢就是这样导致的结果。模型还是可能有能力以同样接近线性的速度来学习。

事实上,如果我们给它更多的文本,就会拉长余弦时间表,这样它的学习率就会以同样的速度继续下降。

模型的适应情况并不依赖于,我们可以为其训练提供的数据量。因此,学习率下降的变化是不合理的。

不过,这不是本文的重点。

训练损失曲线可能会以另一种方式误导我们。

当然,它们都是在相同的数据上训练的,但它们不会以相同的速度处理这些数据。

我们想知道的不是模型的样本效率又如何(在这方面,较大的模型显然从它所看到的数据中学到更多东西)。

让我们想象一场比赛:所有这些模型都在同一时间开始,我们想知道哪一个先越过终点线。

换句话说,当在训练中投入固定计算量时,谁在这段时间里学得最多?

值得庆幸的是,我们可以将损失曲线与Meta提供的另一项数据结合起来:每个模型训练所花费的时间。



首先要说明的是,我们看到的整个Chinchilla图形只覆盖了这个图形左边的一小块。

在这一小片区域中,我们看到了与Chinchilla记录相同的行为。

以7B为例:一开始,它的损耗下降速度比更大的模型快得多,然后速度减慢,13B模型超过了它,首先达到了1.9。

但是,接下来是一个遥远的、意想不到的转折:

7B进入一个近乎线性的状态,呈陡峭的下降趋势,似乎正在再次超越13B?很难从这张图上看出如果7B训练得更久会发生什么。

然而,13B和33B之间似乎也有同样的行为,最初的Chinchilla减速也近乎线性的状态,此时13B下降得很快。

就33B来说,它的计算时间是13B两倍,因此超越13B理所当然。

33B和65B之间也出现了同样的先减速后加速的情况,以至于33B实际上从未被65B超越。

图表显示的情况打破了OpenAI和Chinchilla的假设:更大的模型还没有赢(尚未)。他们检测到的速度减慢实际上并不是因为达到了某个容量极限!

不过,7B曲线还是有点不尽人意。如果Meta对其进行更长时间的训练就好了... 而现在,他们做到了!Meta本周发布了 LLaMA 2!

证实「质疑」


同样,Llama 2也公布了模型的训练时间:



一眼望去,我们就会发现训练曲线与LLaMA 1并不一致,即使模型完全相同。

原来,LLaMA 2是在双倍的上下文大小和更长的余弦时间上进行训练的,不幸的是,这对所有大小的模型都产生了负面影响。

不过,较小模型受到的影响比较大模型更严重。

因此,在 LLaMA 1中,34B模型在任何训练时间内都始终优于65B模型,而现在则略高于70B模型,之后又超过了70B模型:


更重要的是,对训练速度的比较有力地证实了我们对LLaMA 1的猜测:

1. 首先,它们比更大的模型更快,

2. 然后,它们放慢速度,被较大的模型超越(根据Chinchilla的说法)

iphone14pro美版改双卡

3. 但随后,它们又进入了近似线性的状态,在这种状态下,较小的模型会以更陡峭的速度下降,从而获得更优越的知识,并再次超越较大的模型!

一个有趣的结果与开始训练时做出正确的选择有关:与人们普遍认为的相反,更大的模型会产生更差的结果。

如果必须选择参数大小和数据集,最好选择一个7B模型,并在数万亿个token上训练7个epoch。

看看7B的近线性机制,再推断一下70B模型的停止时间:如果把70B的计算用在7B模型上,那么它可能会达到更低的困惑度(perplexity)!

我们从LLaMA 2中注意到的另一件事是,LLaMA 1曲线末端的学习速度减慢确实是余弦时间表的一个假象。

在LLaMA 2的训练中,读取1万亿token的相应时间点上完全没有出现这种放缓现象。

事实上,在同样token下,LLaMA 2 7B模型比LLaMA 17B模型质量差,原因可能是它的余弦时间表被拉长了!

让我们回到Chinchilla的论文来论证这一点。在附录A图A1 中,他们展示了针对各种余弦时间表参数的消融研究(拉伸学习率曲线的各种方法)。


他们指出,当曲线不被拉长时,损失最低。图表证明了这一点,但作者也注意到了一些不对劲的地方。

在读取了600万个token后,顶部模型的训练损失低于2.8。与此同时,在同一标记处,底部模型的训练损失高于2.8。

然而,模型之间唯一的区别就是余弦时间表!

由于底层模型需要训练更多的数据,因此「未拉伸」余弦值被计算为更多的步骤,这有效地拉伸了它。

如果学习率遵循分配给更少训练步骤的时间表,那么在相同的训练时间内会有更好的损失。

更广义地说,这就提出了一个问题:如果余弦时间表不是最优的,那么曲线的尾部形状应该是怎样的呢?

参考资料:

https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights


返回网站首页

本文评论
科大讯飞申请“讯飞甄选”商标「科大讯飞企业概述」
  36氪获悉,天眼查App显示,近日,科大讯飞股份有限公司申请注册多个“讯飞甄选”商标,国际分类为啤酒饮料、社会服务、科学仪器等,目前商标状态均为申请中。苏宁易购热议黄章回...
日期:10-02
移动智能设备带给网络的五大风险_移动智能设备带给网络的五大风险是什么
  10月8日,据国外媒体报道,出于商务需求和个人需求,目前有很多人在使用移动设备,例如智能手机。随着设备价格的下降以及硬件配置的提升,未来几乎每个人都会拥有一款便宜且功能...
日期:07-23
西湖边4.5平小商亭年租金284万 每天租金达7780元「西湖店面出租」
5月14日上午10点16分,杭州西湖风景名胜区白堤情定商亭的租赁权经过68轮竞拍后落槌,首年租金从190万起拍,最终拍到284万,超出底价近一半。这个位于西湖景区的小商亭,只有4.5平方米...
日期:05-15
鸡蛋灌饼摊主撞脸周杰伦成网红:自我调侃“周饼伦”_周杰伦回应网红灌饼
最近20年的华语流行音乐发展中,周杰伦靠着出色的才华留下了浓墨重彩的一笔。周杰伦走红后,模仿其声音、发型乃至相貌的人层出不穷。当然,也有一些老天爷赏饭”的天然存在。据星...
日期:10-16
RTX 4090频频烧毁 终于要改了!但不能根治
近期,RTX 4090 16针供电接口频频烧毁的问题引发广泛关注,但无论是PCI-SIG组织还是NVIDIA、AIC厂商,都没有给出明确的说法和解决方案。据外媒报道,PCI-SIG组织正在考虑对12VHPWR...
日期:11-11
从3个核心维度,理解百度战略布局电商业务的底层逻辑「百度的战略分析」
声明:本文来自于微信公众号 砺石商业评论(ID:libusiness),作者:路言,授权转载发布。1比亚迪如何应对特斯拉最近几年,百度公司的表现让笔者刮目相看。除了在搜索引擎主战场稳住基...
日期:05-26
美团发布2022年反腐通报:查处刑事案件41起
1月13日 消息:今日,美团发布内部反腐通报。2022年,美团共查处刑事案件41起,移送司法机关107人,其中涉及内部员工47人,生态合作商等外部人员60人,因廉洁合作问题清退且永不合作的合...
日期:01-13
董明珠称32年没休过假:时间百分百在工作上_董明珠的工作时间
近日,董明珠在南风窗 《致敬实干家》节目中表示,我的个人生活离开格力我就没的说了,一天三餐饭,很简单。我的乐趣是每天要看我的报表。她说自己的时间不是大部分,应该是百分之百...
日期:10-13
又减持!巴菲特接连抛售比亚迪,市值已"瘦身"850亿!清仓减持刚开始?新能源赛道也重挫
比亚迪再遭巴菲特减持!持仓比亚迪14年未动的巴菲特近期减持动作频频。港交所最新文件显示,巴菲特旗下的伯克希尔·哈撒韦再减持比亚迪171.6万股H股,已累计减持1786万股,持股比例...
日期:09-16
腾讯一季度营收「腾讯三季度收入1401亿元,净利润399亿元同比增1%_」
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:11-20
高晓松卸任北京阿里巴巴音乐科技有限公司董事长_高晓松名下的音乐公司
  10月23日上午消息,天眼查数据显示,10月21日,北京阿里巴巴音乐科技有限公司发生工商变更,高晓松正式卸任北京阿里巴巴音乐科技有限公司董事长、法定代表人,由阿里巴巴创新业...
日期:11-24
淄博烧烤小店每日卖上万烤串 当地游客酒店爆满「淄博的烧烤」
今年 3 月初,“淄博烧烤”相关话题也经常出现在热搜榜上,两层小炉、小饼、特色小葱和蘸料,也被网友戏称为灵魂三件套。王志鹏说,他打开抖音,总能看到“淄博烧烤”的内容,感觉抖音...
日期:04-14
免费VS付费,抖快谁能突围短剧下半场_抖快点破解版
声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:陈桥辉,授权转载发布。经过5年的发展,短剧的商业模式正在迎来转折点。近日,Tech星球独家获悉,抖音集团推出一款名为“红果免...
日期:05-12
字节赛马:抖音图文,内卷头条?_今日头条,字节跳动,抖音
声明:本文来自微信公众号“财经故事荟”(ID:cjgshui),作者:王红霞,编辑:陈纪英,授权转载发布。“ 舍不得孩子套不着狼”,这话用来形容字节的最新境况,再合适不过。在近日的2022年抖...
日期:10-09
腾讯:根据2017年购股权计划授出合共5,516,928份购股权以认购股份_腾讯售出购股权
联合国投资委员会 查看最新行情   讯 8月18日晚间消息,腾讯控股公告,于8月18日根据2017年购股权计划授出合共5,516,928份购股权以认购股份,行使价每股312....
日期:08-19
魅族20 Pro外观曝光:竖排三摄、采用直角边框「魅族20 pro外观曝光:竖排三摄,采用直角边框怎么设置」
2月14日消息,今天数码博主@数码闲聊站曝光了魅族20 Pro的外观渲染图,从渲染图可以看出,魅族20 Pro后置三摄,采用竖形排列,加上一个闪光的,四个圆环像是一串糖葫芦,同时手机采用直角...
日期:02-15
Pico Neo3 VR一体机「PICO 4 VR一体机新品发布:售价2499元起 将推VR版《三体》」
9月27日消息,PICO在中国市场正式发布新一代VR一体机——PICO 4系列,售价2499元起。这是PICO被字节跳动收购以来首次发布升级换代产品。据悉,PICO 4产品配置达到行业领先水平。...
日期:09-30
台积电四季度营收若达到预期 全年营收就将超过450亿美元(快看|台积电三季度营收121亿美元超预期)
10月19日消息,据国外媒体报道,在7nm、5nm等先进制程工艺的推动下,芯片代工商台积电今年前三个的营收同比大幅增加,且都超过了100亿美元。对于今年四季度,台积电是预计营收124亿美...
日期:08-01
乐信去年全年营收106亿同比增39.6%,助贷总额突破千亿「乐信Q3营收27亿元,用户数1.84亿同比增19%_」
11月17日消息,乐信(NASDAQ:LX)发布2022年三季度未经审计财务业绩:2022年第三季度贷款发放总额为562亿元人民币,较2021年第三季度的558亿元人民币增长0.7%。乐信2022年第三季度营收2...
日期:12-02
三星fold折叠屏手机评测「折叠后无缝隙!三星Galaxy Z Fold5折叠屏手机真机曝光」
三星即将在本月举行的Galaxy Unpacked活动中发布两款折叠屏手机,分别是Galaxy Z Flip 5和Galaxy Z Fold 5。有关Galaxy Z Fold 5的真机照片在之前已经流出,展示了其新型铰链和...
日期:07-04