您的位置:首页 > 互联网

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快_英伟达openautomate wrapper

发布时间:2024-10-21 11:25:52  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。

AI的未来,或许就此改写......

最近,英伟达团队抛出的一枚重磅炸弹,提出了全新神经网络架构——归一化Transformer(nGPT),基于超球面(hypersphere)进行表示学习。

相较于Transformer架构本身,nGPT直接将LLM训练速度提升至高20倍,而且还保持了原有精度。

也就意味着,原本需要一个月完成的训练,在未来可能只需1-2天的时间就能搞定。

无疑为通向AGI终极目标,注入了一针强心剂!

论文地址:https://arxiv.org/pdf/2410.01131

在nGPT中,所有的向量(嵌入、MLP、注意力矩阵、隐藏状态),都被归一化为单位范数(unit norm)。

输入后的token在超球面表面上移动,每一层都通过位移来贡献最终的输出预测,其中位移量是由MLP和注意力模块进行定义的,其向量组件都位于同一个超球面上。

实验表明,nGPT达到相同精度所需的训练步骤减少了4-20倍,具体取决于序列长度:

-1k上下文,训练速度提高4倍

-4k上下文,训练速度提高10倍

-8k上下文,训练速度提高20倍

可以看出,上下文越长,训练越快。

英伟达inspector

Reddit网友表示,我很好奇它还能扩展到多大程度。如果它能在更长的上下文中大幅扩展,这意味着像o1这样的模型将会获得显著的训练速度优势。

还有人表示,下一代模型将会更高效、更智能。

nGPT全新架构,超球面上归一化

毋庸置疑,Transformer架构是现代大模型的基础。

不过,当前基于Transformer搭建的大模型都是计算密集型的,需要耗费大量的资源和时间。

为了改进其训练稳定性、推理成本、上下文长度、鲁棒性等方面,AI科学家已进行了大量的修改尝试。

其中,最突出的发现是,归一化技术对于Transformer性能改善起着重要作用,比如LayerNorm和RMSNorm。

另一种模型归一化方法是,通过权重衰减(weight decay)控制权重范数。

不过,最新研究又对权重衰减的作用进行评估,并且转向更多地关注旋转,而非仅仅关注向量范数。

越来越多的证据表明,在超球面上进行表示学习与更稳定的训练、更大的嵌入空间可分离性以及在下游任务上的更好性能相关。

而且,还有新研究表明,Transformer隐式地执行梯度下降作为元优化器。

由此,英伟达团队提出了,在归一化Transformer新视角下,统一该领域的各种发现和观察。

这项研究的主要贡献在于:

- 在超球面上优化网络参数

建议将形成网络矩阵嵌入维度的所有向量归一化,使其位于单位范数超球面上。这种方法将矩阵-向量乘法转化为余弦相似度的计算,其范围限定在 [-1,1] 之间。而且归一化消除了对权重衰减的需求。

- 归一化Transformer作为超球面上的可变度量优化器

归一化Transformer本身在超球面上执行多步优化(每层两步),其中注意力和MLP更新的每一步,都由特征学习率控制——这些是可学习的可变度量矩阵的对角线元素。

对于输入序列中的每个token

,归一化Transformer的优化路径从超球面上对应于其输入嵌入向量的点开始,移动到超球面上最能预测下一个

的嵌入向量的点。

各位大神你们的手机多少年换一次

- 更快的收敛

研究证明,归一化Transformer将达到相同精度所需的训练步骤减少了4-20倍。

Transformer演变:从GPT到nGPT

嵌入层归一化

标准的decoder-only Transformer的训练目标是根据输入序列的前序tokens来预测后面的token,在token预测时,模型会引入两个可学习的嵌入矩阵Einput和Eoutput,分别用来从输入词转为词嵌入,以及从词嵌入转为预测输出。

在模型训练期间,通常使用对应嵌入向量的点积来计算token相似度,但嵌入向量的范数(norms)不受限制的,可能会导致相似性计算存在偏差。

为了提高相似性估计的准确性,研究人员在新架构中提出,在训练算法的每一步之后,对Einput和Eoutput中的嵌入向量进行归一化。

智能体在预测文本中的下一个词时,会使用因果掩码(casual masking)来确保模型在预测token时不会偷看到之后的词,造成信息泄露,从而让模型能够同时预测多个词并计算预测误差,提高训练效率,同时保持了按顺序预测词的能力。

在输入词序列后,模型会在预测序列中的每个位置都生成一个输出向量,然后计算出一个logits向量zi来表示词汇表中每个词出现的可能性,可以辅助模型理解不同词在当前上下文中的重要性:

之后用softmax函数把zi转为概率值,并选取概率最高的词作为下一个词的预测。

由于nGPT的嵌入矩阵已经归一化了,所以zi的值范围为[−1,1],也会限制softmax后得到的概率分布的置信度,也可以叫做温度。

为了在训练过程中调整置信度,nGPT又引入了一个可学习的缩放参数sz,通过逐元素地缩放logits,模型可以更灵活地预测的置信度,更好地学习到在不同情况下如何做出更准确的预测:

层/块归一

标准Transformer架构需要对隐藏层状态h进行L层变换,包括一个自注意力(ATTN)和多层感知机(MLP)。

水泥泵车的高度是多少

其中RMSNorm也可以替换成其他归一化(normalization)函数。

隐藏层的参数更新,其实就是在一个超平面上(维度为隐藏层的向量长度)寻找两个点(原参数和新参数)的最短距离。

1985年,Shoemake提出了球面线性插值(SLERP,Spherical Linear Interpolation),可以沿着球面上两点之间的最短路径找到中间点,研究人员发现该方法还可以通过更简单的线性插值(LERP,linear interpolation)来得到近似解,从而降低计算量:

按最短路径寻找来说,参数更新过程可以描述为:

其中a和b是球面上的两个点,对应到nGPT上,a也就是隐藏层状态,b是经过注意力机制或MLP块后的状态,梯度就是g=a-b,B为可变矩阵。

在拟牛顿方法中,B可以近似于逆黑塞矩阵,当 B是一个对角线元素非负的对角矩阵时,αB就变成了一个向量,其元素对应于B的对角线元素乘以学习率α,也可以称之为特征学习率(eigen learning rates)。

eigen源自德语词,意为自己的(own),可以指代Transformer 的内部结构。

所以nGPT中的参数更新方程可以写为:

其中αA 和 αM是可学习的参数,分别用于注意力和多层感知机(MLP)模块的归一化输出 hA和 hM

与基础 Transformer 相比,在nGPT的最终层之后不需要再进行额外的归一化了。

自注意力块

注意力机制可以说是Transformer中最重要的模块,序列中的每个token都能够关注到其他所有token,从而让模型具有捕捉长距离依赖关系的能力。

模型会把处理后的信息分解成三个部分:查询(q,query)、键(k,key)和值(v,value),可以辅助确定哪些信息是重要的,以及信息之间是如何相互关联的。

为了确保模型能够理解每个词在序列中的位置,模型中通常还会在query和key向量之间加入旋转位置嵌入(Rotary Position Embeddings,RoPE)。

然后通过计算query向量和key向量的点积、缩放、应用softmax得到注意力权重,对value向量进行加权求和,得到注意力得分。

在实践中,Transformer一般都会用到多个注意力头,其中每个头的注意力机制都是独立计算,最后再通过一个可学习的投影矩阵Wo合并所有头输出。

在计算注意力得分的过程中,权重矩阵没有受到太多限制,可能会导致最终得分过大或过小。

在nGPT中,研究人员对q向量和k向量进行归一化,还引入了一些可调整的参数(sqk),以确保权重矩阵在处理位置信息时不会失真,更准确地捕捉到句子中词与词之间的关系,从而做出更好的预测和决策。

MLP块

在标准Transformer中,隐藏层收入通过RMSNorm进行归一化,然后经过两个线性投影生成中间向量(暂不考虑偏置项):

然后使用SwiGLU 门控激活函数,以及一个线性变换得到最终门控激活。

在nGPT中,研究人员提出对线性投影的权重矩阵进行归一化,并引入可学习的缩放因子,能够更充分地利用处理信息时的非线性特性,在处理复杂信息时更加灵活。

多层感知机模块的输出不会因为缩放调整而发生变化。

Adam高效学习率

Adam优化算法通过动量和梯度幅度的估计来调整每次的学习步长,同时考虑了当前及过去的梯度信息。

在nGPT中,研究人员同样引入了一个可训练的缩放参数向量,对特定的参数进行更精细的控制,确保每个参数都能以最适合自己的速度进行学习,从而进一步提高学习效率。

在不影响全局学习率的情况下,对特定的参数进行调整,提供了更大的灵活性和控制力。

变化总结

和基础Transformer相比,nGPT主要做了七个改变:

1、移除所有归一化层,比如RMSNorm或LayerNorm;

2、在每个训练步骤之后,沿着嵌入维度对所有矩阵,包括输入输出嵌入矩阵,以及各种权重矩阵进行归一化处理;

3、修改了隐藏层参数更新方程;

4、调整注意力机制中的softmax缩放因子,对q和k进行重新缩放和归一化;

5、对MLP块的中间状态进行重新缩放;

6、对logits进行重新缩放;

7、移除权重衰减和学习率预热步骤。

上下文越长,训练速度越快

海信电视u7g评测

接下来,研究人员在OpenWebText数据集上训练了基础基础Transformer(GPT)和归一化Transformer(nGPT),并在一系列标准下游任务上对其进行评估。

实验中,使用了0.5B和1B(包括嵌入)两种参数规模的模型。两种参数规模的模型0.5B和1B(包含嵌入)。

训练加速

图1显示了,在训练过程中,10亿参数且样本长度为4k token的GPT和nGPT模型的验证损失。

经过2万次迭代后,nGPT达到了与GPT在20万次迭代(约4000亿个token)后,才能达到的相同验证损失。

这表明,在迭代次数和使用token数量方面,nGPT实现了10倍的加速。

再来看图2,展示了nGPT和GPT在三个方面的性能差距是如何变化的:总token数量、上下文长度、参数规模。

在1k、4k和8k token上下文中,训练0.5B和1B的nGPT模型分别约快4倍、10倍和20倍。

图3在下游任务中显示了类似的性能,证实加速不仅反映在困惑度上,也反映在任务表现上。

研究人员观察到,对于较长的训练运行,nGPT显示出一些饱和现象,这暗示在当前可训练参数数量下,模型容量可能已接近极限。

神经网络参数检查

图4显示,虽然nGPT保持固定的嵌入范数(这是设计使然),但GPT表现出明显的变化。

从嵌入的协方差矩阵计算得出的特征值分布(已经由其中位数归一化)显示,GPT的输入嵌入具有更高的条件数,尤其是在1B模型中。

嵌入之间的成对点积分布表明,即使在nGPT中,嵌入也并非均匀分布在超球面上(在那里点积会接近0),而是形成簇——这可能反映了语言数据中的自然模式。

由于GPT的嵌入形成了一个超椭球体(hyper-ellipsoid),如向量范数的分布所示,其点积往往具有更高的值。

GPT输入嵌入的病态性质(ill-conditioned nature)可能导致涉及这些嵌入的计算问题。

下图5展示了,注意力和MLP矩阵在不同层深度上的中位数条件数(跨多个头)——0.5B模型有24层,1B模型有36层。

与nGPT相比,GPT模型的注意力矩阵呈现显著更高的条件数。

对这些矩阵的进一步检查,GPT的注意力矩阵表现出退化为低秩矩阵的趋势,可能减少了这些块的学习容量。

下图6展示了,(左图)注意力模块和MLP模块的特征学习率,(中图)应用于MLP中间状态的缩放因子,(右图)应用于QK点积之前的缩放因子。

参考资料:

https://x.com/Marktechpost/status/1847768544777581022

https://arxiv.org/abs/2410.01131


返回网站首页

本文评论
全国首创!高德地图上线无障碍导航:已覆盖30城 支持轮椅路线_高德地图无线导航设置
快科技2023年10月30日消息,据阿里巴巴公益官方介绍,高德地图联合阿里公益上线的无障碍导航已覆盖北京、上海、杭州、广州、深圳、武汉、长沙、济南、成都、青岛等30座城市,成为...
日期:10-30
中国联通2021国际合作伙伴大会「中国联通圆满完成博鳌亚洲论坛2024年年会通信服务保障工作」
通信世界网消息(CWW)3月26日至29日,以“共同的挑战,共同的责任”为主题的博鳌亚洲论坛2024年年会在海南博鳌召开。中国联通以高度的政治责任感和使命感,全力以赴为博鳌亚洲论坛年...
日期:04-01
大象撞汽车「男子驾车误撞小象遭5头大象围攻 科普:群居动物家庭观念极强」
快科技11月29日消息,作为陆地上体型最大的动物,大象有着极强的社会和家庭观念,一旦族群中有成员被攻击,那么可能会发动集体讨伐”。据《马来邮报》本月27日报道,本月26日晚,一男子...
日期:11-29
湖南这几天有雪下吗「起猛了 看湖南下雪还以为天上掉大米:这三地还将有大雪」
近日,全国多地持续雨雪天气,在湖南湘西更是出现了罕见的一幕。2月3日,有湖南湘西网友拍到神奇的雪景,既不是雪花,也不是雪粒,而是像大米一样。乐视919晚会有网友评论,起猛了,看到这...
日期:02-04
pro16参数「外媒披露iPhone 16 Pro系列具体尺寸 较iPhone 15 Pro略宽略高也略重」
1月2日消息,据外媒报道,在iPhone 15系列智能手机推出之前,就有多位业内的分析师预计,苹果公司今年将推出的iPhone 16系列中的两款Pro版,将配备尺寸更大的屏幕,将大于iPhone 15 Pro...
日期:01-02
自己是奥特曼「奥特曼:自认比o1聪明请举手」
声明:本文来自于微信公众量子位 | 公众号 QbitAI,作者:梦晨,授权转载发布。奥特曼:认为自己比o1更聪明的请举手。(台下一些人举手)奥特曼:到了o2你们还会这么想么?(汗流浃背了)这一...
日期:10-07
小米:拜托大家不要再叫雷军爽文男主了
快科技7月18日消息,雷军将于明晚召开2024年度演讲,这次会将一些关于造车的秘辛,主题是关于勇气。今天小米官方还发文称:拜托大家不要再叫雷军爽文男主了。小米表示,人生从来不是...
日期:07-18
华为P50到手史低价3758 全面立减730元「华为P50系列售价4488元起」
打算买手机的用户可以下手了!开年春节的价格实在是太合适了。华为旗下的主力机型华为P50售价只要3758元起,有着立减730元的优惠,并且还有6期分期免息的活动,而华为P50 Pro也有立...
日期:02-04
吐槽外卖难吃「男朋友嫌吃50元外卖太贵 女子吐槽:不想自己过的没生活质量」
日前,有网友在小红书发文称,男朋友嫌自己吃50元的外卖太贵了,自己听了很不舒服,并表示不想自己过的太没有生活质量。microsoft office2013是什么软件文章内容显示,该女子中午点了...
日期:10-15
X40骁龙888「到手1999元起 荣耀X40 GT手机发布:骁龙888彻底被驯服」
今晚的发布会上,荣耀发布了一款主打游戏的千元级新机荣耀X40 GT,采用了旗舰级的骁龙888平台,带来了强大的13层立体式散热结构,成功降伏了骁龙8系列处理器,配合144Hz高刷电竞屏,成...
日期:10-15
2024香港小姐竞选结果出炉 冠亚季军火了:网友称审美终于回归正常
9月15日晚,《2024香港小姐竞选决赛》在中国香港举行。大热佳丽2号倪乐琳荣获冠军;亚军是11号梁嘉莹,她同时也是本届最上镜小姐。智能汽车传感器上市公司在日本随身wifi607hw季...
日期:09-16
网易严选三周年打造“严选粉丝节”,致敬每一个用心生活的人_网易严选粉丝专享
  近日,网易旗下自营生活家居品牌,网易严选即将迎来自己三周岁的生日。为了感恩三年里严选用户的支持,此次店庆以“严选粉丝节”为主题,于4月1日至4月11日期间推出“回馈金”...
日期:05-08
微软安全更新含13补丁修补22个安全漏洞(微软最新补丁 问题)
  微软将于美国东部时间8月9日(补丁星期二)发布8月安全公告,其中含13个安全补丁,修补IE、Windows、Visio和Visual Studio等软件中的22个安全漏洞。   在这13个安全补丁中,有...
日期:07-22
倒计时30天!2023世界人工智能大会主题和主视觉发布!
  2023世界人工智能大会将于7月6-8日在上海举办,以“智联世界;生成未来”为主题,聚焦通用人工智能发展,营造良好创新生态,拥抱智能新时代,共话产业新未来。大会将继续发挥“科...
日期:06-07
行业首款2K Q10珠峰屏!iQOO 13屏幕参数出炉_iqoo3屏幕是2k吗
快科技10月18日消息,iQOO 13首发采用由iQOO和京东方联合打造的2K Q10珠峰屏,今天博主WHYLAB分享了iQOO 13的屏幕参数。具体来说,iQOO 13采用6.82英寸2K直屏,分辨率为31681440,首...
日期:10-19
龙年盲盒、足量果蔬、定制化物资……太空快递小哥“天舟七号”准备就绪
央视网消息:据中国载人航天工程办公室消息,1月15日,天舟七号货运飞船与长征七号遥八运载火箭组合体垂直转运至发射区。目前,文昌航天发射场设施设备状态良好,后续将按计划开展发...
日期:01-18
小米与京东商务谈判过程「京东与小米深化战略合作:未来三年全渠道销售目标2000亿!」
近日,京东与小米达成全新战略合作,京东集团CEO许冉,小米集团合伙人、总裁及国际业务部总裁卢伟冰出席仪式并见证战略签约。双方明确了未来三年小米在京东全渠道销售额2000亿的...
日期:05-14
抖音即创有哪些功能玩法 抖音AI软件推荐_抖音即视工具是啥
抖音即创是一款一站式智能创意生产与管理平台,它可以帮助创作者提高视频、图文的创作效率,借助的是AI赋予的各种新功能。抖音即创目前提供了三大功能,分别是视频制作、图文制作...
日期:01-10
我国手机平板电脑占全球比例_2016企业智能手机和平板电脑用户将超8.30亿
  【赛迪网讯】6月22日消息,据国外媒体道道,据ABI Research发表的研究报告称,企业B2E(企业对员工)和B2C(企业对客户)智能手机和媒体平板电脑用户的复合年增长率将达到接近90%,到2...
日期:07-30
rgb灯条装哪里比较好「RGB灯条如何选购?一文让您从小白变高手」
不知从何时开始,RGB灯光已经成为电脑DIY圈里的潮流。满满的仪式感和电竞氛围?RGB自带性能Buff?神光同步带来炫酷高 级感?……带灯的设备越来越多,玩灯的理由千千万万,但是你对日夜...
日期:01-09