您的位置:首页 > 互联网

清华提出4比特优化器 显著减少LLaMA微调的显存需求

发布时间:2023-09-08 20:28:49  来源:互联网     背景:

要点:

1、针对优化器状态的量化方法,将优化器状态的数值精度降低至4比特

2、提出了针对一阶矩和二阶矩的量化策略,处理了零点问题等难点

3、在多个微调任务中达到全精度优化器的性能,同时可将LLaMA微调的显存需求减少超过50%

9月8日 消息:随着大模型规模的不断增大,显存需求成为模型训练的主要瓶颈之一。优化器状态中的一阶矩和二阶矩是占用大量显存的重要因素。为降低显存使用,清华大学朱军、陈键飞团队在ICLR2022的工作基础上,进一步将优化器状态的比特数降低到4比特,同时针对一阶矩和二阶矩的不同特点,提出了相应的量化策略。

iphone15pro正式曝光

项目地址:https://github.com/thu-ml/low-bit-optimizers

对于一阶矩,由于存在按行或列分布的异常值,提出采用更小的128大小的分块进行归一化。对二阶矩,确定零点问题是主要难点,去除零点的线性映射取得了很好效果,同时提出rank-1归一化更好地处理异常值。最后,提出了4比特AdamW和Factor两种低精度优化器。

在多个经典的微调任务中进行评估,结果表明4比特优化器能够匹配甚至超过32比特AdamW的性能。同时显著减少了优化器状态的显存需求,在LLaMA-7B的微调中最高可节省57.7%的显存。提供了开箱即用的PyTorch接口,只需要一行代码即可使用。

本研究工作展示了通过压缩的思路显著减少大模型微调中的显存瓶颈的可能性。同时优化器状态的低比特设计也为进一步探索内存高效的训练算法提供了有价值的经验。这些成果将促进大模型在有限硬件条件下的高效训练与应用。


返回网站首页

本文评论
520单日票房超3亿:刷新中国影史520单日票房纪录
5月20日消息,猫眼专业版数据显示,2023年5月20日单日票房超3亿,刷新中国影史520单日票房纪录。在520当天,票房最高的电影是《速度与激情10》(以下简称《速10》),它是一部由路易斯莱...
日期:05-21
国产特斯拉全系降价,Model 3起售价22.99万元「特斯拉全系价格调整,Model 3最高降3.31万元」
(原标题:国产特斯拉全系降价,Model 3起售价22.99万元) 笔记本wifi网速慢 1月6日,据特斯拉中国官网,特斯拉国产车型大幅降价,Model...
日期:01-06
百度搜索份额增至83.6% 再创历史新高_百度的更多搜索结果
  昨天,国内调研公司艾瑞咨询最新发布的《2009-2010年中国搜索引擎年度监测报告》数据显示,2010年第四季度,百度的网页搜索请求量市场份额较2009年同期上升6.5个百分点,达到8...
日期:07-26
解锁方寸间的收纳魔法,海信品质之家教你打通“最后一公里”
  整理收纳解决的是生活品质的“最后一公里”。7月24日,海信品质之家举办“臻享品质之约”——收纳课堂活动,吸引了数十位高端用户参加。在一级整理收纳专家郑小曼的分享指...
日期:05-13
NV一季报营收亮眼 股价新高!老黄:显卡要靠抢 有钱还不一定买到
快科技5月25日消息,NV公布了一季报,在目前低迷的半导体市场,其数据真的是太亮眼了。在截至今年4月30日的3个月里,NV总共实现营收71.9亿美元,虽然比起去年同期下降13%,但远远好于市...
日期:05-25
马斯克推特收购案最新细节披露:原来是在短信上谈崩了_马斯克发推特说市值
  IT之家9月30日消息,根据本周举行的马斯克推特收购案公开听证会上披露的信息,马斯克在与推特CEO帕拉格・阿格拉瓦尔(ParagAgrawal)的一次戏剧性短信交流中,改变了收购推特的主...
日期:10-01
华为mate60pro最新消息「曝华为Mate60系列9月10日全面开售」
华为Mate60 Pro和华为Mate60系列两款手机于8月29日和8月30日分别开售,售价分别为6999元和5999元。虽然华为此前已经进行了多轮开售,但目前仍有大量消费者没有抢到。 据最新...
日期:09-01
首位华裔奥斯卡影后!杨紫琼周边价格暴涨 闲鱼上一本杂志内页卖万元
3月13日消息,在第95届奥斯卡颁奖典礼上,杨紫琼凭借奇幻电影《瞬息全宇宙》获得影后”荣誉,成为奥斯卡历史上第一位华裔影后”。据悉,杨紫琼在《瞬息全宇宙》中饰演一名华裔中年...
日期:03-13
步步高手机i531_步步高手机i508 I泡泡i508
,是一款功能丰富的智能手机,其强大的性能和出色的性价比让消费者越来越青睐它。首先,的外观设计简约时尚,采用全面屏设计,屏幕分辨率高达1080P,呈现出色彩饱满且清晰锐利的画面。...
日期:05-31
上海爱可生发布基于OceanBase开源内核的商业发行版ActionDB「爱可生信息科技有限公司官网」
2023年5月19日,上海爱可生信息技术有限公司(以下简称“爱可生”)召开数据库新品发布会,正式发布面向国产化时代的企业级数据库ActionDB。 ActionDB是基于OceanBase开源内核的商...
日期:05-20
Facebook聘请博雅诽谤谷歌遭遇匿名危机(facebook被人举报)
腾讯科技讯(马乔)北京时间5月14日消息,美国《纽约时报》记者米格尔-赫尔夫特(Miguel Helft) 今天发表评论文章称,Facebook聘请知名公关公司博雅(Burson-Marsteller)炮制和散...
日期:07-27
越喷越买!吐槽理想“冰箱彩电大沙发”真的是帮它打广告_理想电视什么时候停产
刚刚过去的6月,理想汽车月度交付量首次突破3万辆,成为继奔驰、宝马、奥迪和特斯拉之后,第五家月交付量突破3万辆的豪华品牌,也是唯一一家月交付量超过3万辆的中国豪华品牌。提到...
日期:07-12
华为2022年研发总投入1615亿:占收入25.1% 创十年最高_华为研发投入占比多少
今天下午,华为召开了2022年年度报告会议,公开了一整年的具体数据。报告显示,2022年华为整体经营平稳,实现全球销售收入6423亿人民币,净利润356亿元,下滑68.7%。其中,华为运营商业务...
日期:04-01
 百度王海峰团队荣获吴文俊人工智能科技进步奖特等奖,成果已应用于文心一言
5月6日,以“场景驱动•数智强国”为主题的第十二届吴文俊人工智能科学技术奖颁奖典礼暨2022中国人工智能产业年会在北京和苏州两地同期召开。百度首席技术官、深度学习技术及...
日期:05-08
金山软件北京办公区开工:雷军现场发红包,称会坚持“技术立业”
  IT之家1月29日消息,金山软件董事长雷军今日上午表示,金山软件北京办公区开工仪式今日举行。今年是金山软件创办35周年,“我们会始终坚持‘技术立业’,把金山办成一家基业长...
日期:01-29
曝自如友家租房需40周岁以下 客服:年纪差异大易产生矛盾「自如友家服务费怎么收」
据报道,近日,有网友发文反映其在自如租房时看到合同上写超40岁无法租住。对此,官方客服回应,友家房源超过40周岁是没办法签约入住的,整租的话可以,因为年龄差异比较大的话,在生活习...
日期:06-09
盛大惨败酷6拖后腿 陈天桥反思未做好广告
  9月1日消息,盛大网络昨日发布第二季度未经审计财报,其净利润为880万元,同比下降95%,去年同期为1.7亿元。   美国投资银行Pacific Crest在投资报告中指出,盛大网络毛利率下...
日期:07-22
Redmi K60曝光 无线充电和屏下指纹都来了_redmik305g有屏幕指纹吗
中关村在线消息:近日,关于Redmi K60系列相关爆料开始多了起来。优衣库电商模式为什么要有理想根据@数码闲聊站,RedmiK60系列根据具体的机型定位不同,将会支持67W快充以及120W快...
日期:10-10
外媒:Arm的上市问题表明软银面临很大风险_arm是上市公司吗
8月14日消息,日本软银计划最早在今年9月份让旗下芯片设计公司Arm上市。但由于科技股市场的不确定性、智能手机市场需求疲软加之Arm正处于业务转型的十字路口,软银要想让Arm获...
日期:08-14
中国首款基于Android操作系统智能电视问世_安卓电视系统
  与苹果iPhone操作系统分庭抗礼的谷歌Android操作系统在手机已展现出攻城略地的气势,国内的彩电厂家也嗅到了其中蕴藏的巨大商机。TCL集团昨日宣布,国内首款基于Android操...
日期:07-29