您的位置:首页 > 互联网

用FP8训练大模型有多香?微软:比BF16快64%,省42%内存

发布时间:2023-11-02 16:06:42  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

低精度训练是大模型训练中扩展模型大小,节约训练成本的最关键技术之一。相比于当前的16位和32位浮点混合精度训练,使用 FP88位浮点混合精度训练能带来2倍的速度提升,节省50% -75% 的显存和50% -75% 的通信成本,而且英伟达最新一代卡皇 H100自带良好的 FP8硬件支持。但目前业界大模型训练框架对 FP8训练的支持还非常有限。最近,微软提出了一种用于训练 LLM 的 FP8混合精度框架 FP8-LM,将 FP8尽可能应用在大模型训练的计算、存储和通信中,使用 H100训练 GPT-175B 的速度比 BF16快64%,节省42% 的内存占用。更重要的是:它开源了。  

大型语言模型(LLM)具有前所未有的语言理解和生成能力,但是解锁这些高级的能力需要巨大的模型规模和训练计算量。在这种背景下,尤其是当我们关注扩展至 OpenAI 提出的超级智能 (Super Intelligence) 模型规模时,低精度训练是其中最有效且最关键的技术之一,其优势包括内存占用小、训练速度快,通信开销低。目前大多数训练框架(如 Megatron-LM、MetaSeq 和 Colossal-AI)训练 LLM 默认使用 FP32全精度或者 FP16/BF16混合精度。

但这仍然没有推至极限:随着英伟达 H100GPU 的发布,FP8正在成为下一代低精度表征的数据类型。理论上,相比于当前的 FP16/BF16浮点混合精度训练,FP8能带来2倍的速度提升,节省50% -75% 的内存成本和50% -75% 的通信成本。

尽管如此,目前对 FP8训练的支持还很有限。英伟达的 Transformer Engine (TE),只将 FP8用于 GEMM 计算,其所带来的端到端加速、内存和通信成本节省优势就非常有限了。

但现在微软开源的 FP8-LM FP8混合精度框架极大地解决了这个问题:FP8-LM 框架经过高度优化,在训练前向和后向传递中全程使用 FP8格式,极大降低了系统的计算,显存和通信开销。

京东电竞手机官方旗舰店怎么样

  • 论文地址:https://arxiv.org/abs/2310.18313

  • 开源框架:https://github.com/Azure/MS-AMP

1500元左右的手机哪款性价比最高10月

实验结果表明,在 H100GPU 平台上训练 GPT-175B 模型时, FP8-LM 混合精度训练框架不仅减少了42% 的实际内存占用,而且运行速度比广泛采用的 BF16框架(即 Megatron-LM)快64%,比 Nvidia Transformer Engine 快17%。而且在预训练和多个下游任务上,使用 FP8-LM 训练框架可以得到目前标准的 BF16混合精度框架相似结果的模型。

在给定计算资源情况下,使用 FP8-LM 框架能够无痛提升可训练的模型大小多达2.5倍。有研发人员在推特上热议:如果 GPT-5使用 FP8训练,即使只使用同样数量的 H100,模型大小也将会是 GPT-4的2.5倍!

Huggingface 研发工程师调侃:太酷啦,通过 FP8大规模训练技术,可以实现计算欺骗!

FP8-LM 主要贡献:

  • 一个新的 FP8混合精度训练框架。其能以一种附加方式逐渐解锁8位的权重、梯度、优化器和分布式训练,这很便于使用。这个8位框架可以简单直接地替代现有16/32位混合精度方法中相应部分,而无需对超参数和训练方式做任何修改。此外,微软的这个团队还发布了一个 PyTorch 实现,让用户可通过少量代码就实现8位低精度训练。 

  • 一个使用 FP8训练的 GPT 式模型系列。他们使用了新提出的 FP8方案来执行 GPT 预训练和微调(包括 SFT 和 RLHF),结果表明新方法在参数量从70亿到1750亿的各种大小的模型都颇具潜力。他们让常用的并行计算范式都有了 FP8支持,包括张量、流水线和序列并行化,从而让用户可以使用 FP8来训练大型基础模型。他们也以开源方式发布了首个基于 Megatron-LM 实现的 FP8GPT 训练代码库。

刘海屏iphone几款

FP8-LM 实现

apple watch新增车祸检测功能

具体来说,对于使用 FP8来简化混合精度和分布式训练的目标,他们设计了三个优化层级。这三个层级能以一种渐进方式来逐渐整合8位的集体通信优化器和分布式并行训练。优化层级越高,就说明 LLM 训练中使用的 FP8就越多。

此外,对于大规模训练(比如在数千台 GPU 上训练 GPT-175B),该框架能提供 FP8精度的低位数并行化,包括张量、训练流程和训练的并行化,这能铺就通往下一代低精度并行训练的道路。

张量并行化是将一个模型的各个层分散到多台设备上,从而将权重、梯度和激活张量的分片放在不同的 GPU 上。

为了让张量并行化支持 FP8,微软这个团队的做法是将分片的权重和激活张量转换成 FP8格式,以便线性层计算,从而让前向计算和后向梯度集体通信全都使用 FP8。

另一方面,序列并行化则是将输入序列切分成多个数据块,然后将子序列馈送到不同设备以节省激活内存。

如图2所示,在一个 Transformer 模型中的不同部分,序列并行化和张量并行化正在执行,以充分利用可用内存并提高训练效率。

而对于 ZeRO(零冗余优化器 / Zero Redundancy Optimizer),却无法直接应用 FP8,因为其难以处理与 FP8划分有关的缩放因子。因此针对每个张量的缩放因子应当沿着 FP8的划分方式分布。

为了解决这个问题,研究者实现了一种新的 FP8分配方案,其可将每个张量作为一个整体分散到多台设备上,而不是像 ZeRO 方法一样将其切分成多个子张量。该方法是以一种贪婪的方式来处理 FP8张量的分配,如算法1所示。

具体来说,该方法首先根据大小对模型状态的张量排序,然后根据每个 GPU 的剩余内存大小将张量分配到不同的 GPU。这种分配遵循的原则是:剩余内存更大的 GPU 更优先接收新分配的张量。通过这种方式,可以平滑地沿张量分配张量缩放因子,同时还能降低通信和计算复杂度。图3展示了使用和不使用缩放因子时,ZeRO 张量划分方式之间的差异。

使用 FP8训练 LLM 并不容易。其中涉及到很多挑战性问题,比如数据下溢或溢出;另外还有源自窄动态范围的量化错误和 FP8数据格式固有的精度下降问题。这些难题会导致训练过程中出现数值不稳定问题和不可逆的分歧问题。为了解决这些问题,微软提出了两种技术:精度解耦(precision decoupling)和自动缩放(automatic scaling),以防止关键信息丢失。

精度解耦

精度解耦涉及到解耦数据精度对权重、梯度、优化器状态等参数的影响,并将经过约简的精度分配给对精度不敏感的组件。

针对精度解耦,该团队表示他们发现了一个指导原则:梯度统计可以使用较低的精度,而主权重必需高精度。

更具体而言,一阶梯度矩可以容忍较高的量化误差,可以配备低精度的 FP8,而二阶矩则需要更高的精度。这是因为在使用 Adam 时,在模型更新期间,梯度的方向比其幅度更重要。具有张量缩放能力的 FP8可以有效地将一阶矩的分布保留成高精度张量,尽管它也会导致精度出现一定程度的下降。由于梯度值通常很小,所以为二阶梯度矩计算梯度的平方可能导致数据下溢问题。因此,为了保留数值准确度,有必要分配更高的16位精度。

另一方面,他们还发现使用高精度来保存主权重也很关键。其根本原因是在训练过程中,权重更新有时候会变得非常大或非常小,对于主权重而言,更高的精度有助于防止权重更新时丢失信息,实现更稳定和更准确的训练。

在该实现中,主权重有两个可行选项:要么使用 FP32全精度,要么使用带张量缩放的 FP16。带张量缩放的 FP16的优势是能在无损于准确度的前提下节省内存。因此,新框架的默认选择是使用带张量缩放的 FP16来存储优化器中的主权重。在训练中,对于 FP8混合精度优化器,每个参数需要6个字节的内存:

相比于之前的解决方案,这种新的低位数优化器可将内存足迹降低2.6倍。值得说明的是:这是首个用于 LLM 训练的 FP8优化器。实验表明 FP8优化器能在从1.25亿到1750亿参数的各种模型大小下保持模型准确度。

自动缩放

自动缩放是为了将梯度值保存到 FP8数据格式的表征范围内,这需要动态调整张量缩放因子,由此可以减少 all-reduce 通信过程中出现的数据下溢和溢出问题。

具体来说,研究者引入了一个自动缩放因子 μ,其可以在训练过程中根据情况变化。

实验结果

为了验证新提出的 FP8低精度框架,研究者实验了用它来训练 GPT 式的模型,其中包括预训练和监督式微调(SFT)。实验在 Azure 云计算最新 NDv5H100超算平台上进行。

实验结果表明新提出的 FP8方法是有效的:相比于之前广泛使用 BF16混合精度训练方法,新方法优势明显,包括真实内存用量下降了27%-42%(比如对于 GPT-7B 模型下降了27%,对于 GPT-175B 模型则下降了42%);权重梯度通信开销更是下降了63%-65%。

不修改学习率和权重衰减等任何超参数,不管是预训练任务还是下游任务,使用 FP8训练的模型与使用 BF16高精度训练的模型的表现相当。值得注意的是,在 GPT-175B 模型的训练期间,相比于 TE 方法,在 H100GPU 平台上,新提出的 FP8混合精度框架可将训练时间减少17%,同时内存占用少21%。更重要的是,随着模型规模继续扩展,通过使用低精度的 FP8还能进一步降低成本,如图1所示。

对于微调,他们使用了 FP8混合精度来进行指令微调,并使用了使用人类反馈的强化学习(RLHF)来更好地将预训练后的 LLM 与终端任务和用户偏好对齐。

结果发现,在 AlpacaEval 和 MT-Bench 基准上,使用 FP8混合精度微调的模型与使用半精度 BF16微调的模型的性能相当,而使用 FP8的训练速度还快27%。此外,FP8混合精度在 RLHF 方面也展现出了巨大的潜力,该过程需要在训练期间加载多个模型。通过在训练中使用 FP8,流行的 RLHF 框架 AlpacaFarm 可将模型权重减少46%,将优化器状态的内存消耗减少62%。这能进一步展现新提出的 FP8低精度训练框架的多功能性和适应性。

他们也进行了消融实验,验证了各组件的有效性。

可预见,FP8低精度训练将成为未来大模型研发的新基建。


返回网站首页

本文评论
移动支付公司Block放慢招聘速度,削减投资:比特币大跌使公司亏损
谷歌收购twitter索尼a7m3相机包   相关新闻:移动支付公司Block第二季度营收44亿美元 同比转盈为亏   讯 北京时间8月5日早间消息,据报道,美国移动支付公司Block已经放慢招...
日期:08-06
AWE亮点抢鲜看!海信视像全场景显示新品将重磅亮相_海信视像最新
2023 年中国家电及消费电子博览会(AWE)将于 4 月27- 30 日在上海新国际博览中心举行。作为与德国IFA、美国CES并列的全球顶 级展会,今年的AWE将是时隔两年再次举办,关注度空前...
日期:04-25
老马和小扎,要把40亿人带进Web3
iphone6换a9处理器云米蒸烤一体集成灶   出品|虎嗅科技组   作者|周舟   头图|视觉中国   一个奇怪的国际现象正在互联网行业发生,腾讯(中国最大的社交公司)、Meta(美国最...
日期:08-15
Uber 正在开发一款人工智能驱动的聊天机器人以集成到应用程序中
8月3日消息:优步(Uber)正在开发一款基于人工智能的聊天机器人,以集成到其应用程序中。这使得 Uber 加入了那些利用语言工具来改善客户服务、营销和其他自动化任务的公司的行列...
日期:08-03
挪威移动浏览器Opera登陆中国移动应用商场
  挪威移动浏览器厂商Opera软件公司宣布与中国移动达成合作,Opera软件公司的两款手机浏览器产品OperaMini和OperaMobile正式登陆中国移动应用商场,供中国移动手机用户免费...
日期:07-26
三星伯爵价格「坚持个性化和可持续 三星BESPOKE缤色铂格系列产品为家庭健康加码」
从全屋清洁,到饮食营养,健康一直是每个家庭关注的核心话题,尤其在流感高发季节,保障良好的家庭卫生和健康尤为重要。三星BESPOKE缤色铂格系列产品持续贯彻三星BESPOKE HOME个性...
日期:04-14
知乎2023年Q3财报:营收10.22亿 同比增长12.1%_q3财报时间
11月29日消息,知乎今日发布了截至2023年9月30日未经审计的季度财报业绩。财务层面,知乎第三季度总收入为10.22亿元(人民币,下同),同比增长12.1%。经调整净亏损2.25亿元,同比收窄10....
日期:11-29
3690亿美元,美国史上最大气候法案获众议院通过_美国众议院通过1.9万亿
实习记者 | 南紫晗一加7pro和ace历时18个月,美国有史以来针对气候能源领域的最大投资计划即将落地。当地时间8月12日,美国众议院以220票赞成、207票反对通过了《降低通货膨胀...
日期:08-20
年轻人的怜悯,反被国货“收割”
图片来源@视觉中国文|五环外OUTSIDE,作者 | 杜若、优优,编辑 | 车卯卯曾经在国庆前,风风火火的“倒李”运动目前似乎告了一段落,但影响还在继续。美妆国货最多的地方,不在北上广深...
日期:10-12
安全报告称十大病毒集团控制80%病毒传播渠道(大规模病毒)
  2月16日,国内互联网安全厂商金山网络今日发布的《2010-2011中国互联网安全研究报告》显示,目前有80%病毒的传播渠道被国内数十家病毒集团所控制,这些病毒集团借此获得巨额...
日期:07-26
红红火火迎新年_努比亚Z50中国红•兔年限定版真机赏析
去年12月,努比亚正式发布新一代影像性能旗舰手机努比亚Z50。作为努比亚下一个十年的开篇之作,该机搭载了全新升级的35mm定制光学系统,配备性能强悍的第二代骁龙8移动平台,精心打...
日期:09-21
mcn机构入驻抖音「抖音生活服务MCN机构平台2月激励政策再升级:加码头腰部达人」
2月8日 消息:昨日晚间,抖音方面宣布抖音生活服务MCN机构平台2023年2月激励政策再升级,2月激励包括加码头腰部达人,现金激励升级。据悉,抖音生活服务MCN机构平台通过激励政策和运...
日期:02-10
TomTom官网体验入口 AI导航地图软件app免费下载地址_tomtom map
TomTom是一家专注于AI导航、地图和位置技术解决方案的公司,其产品和服务为驾车者、企业客户和开发者提供地图、实时交通信息、路线规划等服务,助力出行和商业运营。TomTom在哪...
日期:12-21
哈佛大学研发出一种更平价和高效的空调_哈佛大学研发出一种更平价和高效的空调方案
夏天的命都是空调给的。这句话正从梗变成现实。jovi智慧车载在今年的高温下,空调变得越来越必要,但同时,空调用得越多,既会加重用电电压力,而排出的热气也会让户外环境更热,制冷...
日期:09-17
双翻页大屏看书,Mate X5上的华为阅读让你“阅”如纸上
随着华为Mate60、Mate X5 的火爆开售,其软件的升级也备受关注,华为阅读针对旗舰新机优化界面排版及阅读动效,不仅提升用户长时间阅读的舒适性,实现更好的视力保护效果,同时听书音...
日期:10-19
北京联想电脑一体机_北京联想电脑一体机专卖店
是一种采用了最新科技的全新电脑产品,不仅仅能够支持日常办公使用,还能够提供出色的游戏和娱乐体验。这种电脑一体机集成了一台电脑的所有组件,包括主板、处理器、内存、硬盘、...
日期:05-30
oppoa9手机多少钱二手回收「oppoa9手机多少钱」
OPPO A9是OPPO公司推出的一款搭载高通骁龙665处理器的智能手机,自推出以来受到了广大消费者的青睐。那么,OPPO A9手机的价格究竟是多少呢?从官网和电商平台来看,OPPO A9手机的价...
日期:05-29
国产openEuler操作系统新版发布:鸿蒙欧拉实现互联互通_操作系统openEuler欧拉
今天,国产操作系统openEuler发布了 22.09正式版本更新,作为社区捐赠后的首个创新版本,22.09全量代码达6.7亿行,新增代码2012万行,其中内核新增原创代码4.8万行。星星冰箱三开门据...
日期:10-03
公益短视频一定没流量吗?他们是怎么做到全网播放量超3.6亿的_短视频播放量为什么能赚钱
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬1993,授权转载发布。编者按:互联网平台、公益机构、内容创作者,这三者与公益的关系可以是什么样的?这其中延伸出一些值...
日期:12-22
投影仪电视机哪个实用?百寸大屏投影仪才是C位选手
现在好像什么都在追求“大”,蛋挞有加大版,奶茶有XL杯,手机也有了512G内存……在各种大号产品中,显示设备也在向着大屏方向发展。大家看电影会选择IMAX,看视频会选择大电视,那在公...
日期:09-15