您的位置:首页 > 互联网

手把手教你剪羊驼,陈丹琦团队提出LLM-Shearing大模型剪枝法_羊驼造型怎么剪

发布时间:2023-10-13 01:32:35  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

给 Llama2(羊驼)大模型剪一剪驼毛,会有怎样的效果呢?今天普林斯顿大学陈丹琦团队提出了一种名为 LLM-Shearing 的大模型剪枝法,可以用很小的计算量和成本实现优于同等规模模型的性能。

自大型语言模型(LLM)出现以来,它们便在各种自然语言任务上取得了显著的效果。不过,大型语言模型需要海量的计算资源来训练。因此,业界对构建同样强大的中型规模模型越来越感兴趣,出现了 LLaMA、MPT 和 Falcon,实现了高效的推理和微调。

这些规模不等的 LLM 适用于不同的用例,但从头开始训练每个单独的模型(即使是10亿参数小模型)还是需要大量计算资源,这对于大多数科研机构而言仍是很大的负担。

因此在本文中,普林斯顿大学陈丹琦团队试图解决以下问题:能否利用现有预训练 LLM 来构建一个规模更小、通用且在性能上有竞争力的 LLM,同时比从头开始训练需要的计算量少得多?

研究者探索利用结构化剪枝来实现目标。这里的问题是,对于通用 LLM,剪枝后的模型会出现性能下降,尤其是在剪枝后没有大量计算投入的情况。他们使用的高效剪枝方法可以用来开发规模更小但仍具有性能竞争力的 LLM,并且与从头开始训练相比,训练需要的计算量也大大减少。

羊驼剪毛造型多少钱

  • 论文地址: https://arxiv.org/abs/2310.06694

  • 代码地址: https://github.com/princeton-nlp/LLM-Shearing

  • ModelsSheared-LLaMA-1.3B, Sheared-LLaMA-2.7B

在对 LLM 进行剪枝之前,研究者确定了两个关键技术挑战,一是如何确定最终的性能强大、推理高效的剪枝结构?LLM 目前的结构化剪枝技术没有指定的目标结构,导致剪枝后模型在性能和推理速度方面不理想;二是如何继续预训练剪枝后的模型以达到预期性能?他们观察到,与从头开始训练模型相比,使用原始预训练数据来训练会导致不同域出现不同的损失减少。

针对这两个挑战,研究者提出了LLM - shearing算法。这种新颖的剪枝算法被称为定向结构化剪枝,它将源模型剪枝为指定的目标架构,该结构通过现有预训练模型的配置来确定。他们表示,该剪枝方法在源模型中搜索子结构,并在资源受限的情况下最大程度地保持性能。此外设计一种动态批量加载算法,它能根据损失减少率按比例加载每个域的训练数据,从而高效利用数据并加速整体性能的提升。

最终,研究者将 LLaMA2-7B 模型剪枝成了两个较小的 LLM,分别是 Sheared-LLaMA-1.3B 和 Sheared-LLaMA-2.7B,证实了其方法的有效性。

他们仅仅使用500亿个 token(即 OpenLLaMA 预训练预算的5%)进行剪枝和继续预训练,但对于11个代表性下游任务(如常识、阅读理解和世界知识)以及开放式生成的指令调整,这两个模型的性能仍然优于其他同等规模的流行 LLM,包括 Pythia、INCITE 和 OpenLLaMA。

不过要提到一点,在这篇论文发布 Sheared-LLaMA-3B 的时候,最强3B 开源模型的纪录已经被 StableLM-3B 打破了。

此外,下游任务性能轨迹表明,使用更多 token 来进一步训练剪枝后的模型,将带来更大的收益。研究者只对最多70亿参数的模型进行了实验,但 LLM-shearing 具有高度通用性,可以在未来的工作中扩展到任何规模的大型语言模型。

方法介绍

给定一个现有的大模型 M_S(源模型),本文目标是研究如何有效地生成一个更小、更强的模型 M_T(目标模型)。该研究认为这需要两个阶段来完成:

  • 第一阶段将 M_S 剪枝为 M_T,虽然这样减少了参数数量,但不可避免地导致性能下降;

  • 第二阶段持续预训练 M_T,使其性能更强。

结构化剪枝

结构化剪枝可以去除模型大量参数,从而达到压缩模型并加速推理的效果。然而,现有的结构化剪枝方法会导致模型偏离常规架构的配置。例如 CoFiPruning 方法产生的模型具有不统一的层配置,与标准的统一层配置相比,这样会产生额外的推理开销。

本文对 CoFiPruning 进行了扩展,以允许将源模型剪枝为指定的任何目标配置。例如,本文在生成2.7B 模型时使用 INCITE-Base-3B 架构作为目标结构。

此外,本文还在不同粒度的模型参数上学习一组剪枝掩码( pruning mask),掩码变量如下所示:

羊驼修剪造型

每个掩码变量控制是否剪枝或保留相关的子结构。例如,如果对应的 z^layer=0,则需要删除这个层。下图2说明了剪枝掩码如何控制被剪枝的结构。

剪枝之后,本文通过保留与每个子结构中的掩码变量相关的最高得分组件来最终确定剪枝后的架构,并继续使用语言建模目标对剪枝后的模型进行预训练。

动态批量加载

华为mate50 pro被曝有直面屏吗

该研究认为对剪枝后的模型进行大量预训练是很有必要的,这样才能恢复模型性能。

受其他研究的启发,本文提出了一种更有效的算法,即动态批量加载,其可以根据模型性能简单地动态调整域比例。算法如下:

实验及结果

模型配置:本文将 LLaMA2-7B 模型作为源模型,然后进行结构化剪枝实验,他们将 LLaMA2-7B 压缩成两个较小的目标尺寸2.7B 和1.3B 参数,并将剪之后的模型与相同尺寸的模型进行了性能比较,包括 OPT-1.3B、Pythia-1.4B、OPT-2.7B、 Pythia-2.8B、INCITE-Base-3B、OpenLLaMA-3B-v1、OpenLLaMA-3B-v2。表8总结了所有这些模型的模型体系结构细节。

数据:由于 LLaMA2的训练数据并不是公开访问的,因此本文使用了 RedPajama 数据集 。表1提供了本文模型和基线模型使用的预训练数据。

训练:研究者在所有实验中最多使用了16个 Nvidia A100GPU (80GB)。

SHEARED-LLAMA 优于同等大小的 LM

本文表明,Sheared-LLaMA 明显优于现有的类似规模的 LLM,同时只使用一小部分计算预算来从头开始训练这些模型。

下游任务:表2展示了 Sheared-LLaMA 和类似大小的现有预训练模型的零样本和少样本在下游任务上的性能。

指令调优:如图3所示,与同等规模的所有其他预训练模型相比,指令调优的 Sheared-LLaMA 实现了更高的获胜率。

图4显示了 INCITEBase-3B 模型开始时的精度要高得多,但其性能在持续的预训练过程中趋于稳定。

分析

最后,研究者对本文方法的优势进行了分析。

动态批量加载的有效性

其中,研究者从以下三个方面的影响来分析动态批量加载的有效性:(1) 跨域的最终 LM 损失,(2) 整个训练过程中每个域的数据使用情况,(3) 下游任务性能。结果均基于 Sheared-LaMA-1.3B 算法。

跨域损失差异。动态批量加载的目的是平衡各域的损失降低率,使损失在大致相同的时间内达到参考值。图5中绘制了模型损耗(原始批量加载和动态批量加载)与参考损耗之间的差异,相比之下,动态批量加载能均匀地减少损失,各域的损失差异也非常相似,这表明数据使用效率更高。

数据使用情况。表3对比了 RedPajama 的原始数据比例和动态加载的域数据使用情况(图7展示了整个训练过程中域权重的变化)。与其他域相比,动态批量加载增加了 Book 和 C4域的权重,这表明这些域更难恢复剪枝模型。

下游性能。如图6所示,与在原始 RedPajama 分布上训练的模型相比,使用动态批量加载训练的剪枝模型获得了更好的下游性能。这表明,动态批量加载所带来的更均衡的损失减少可以提高下游性能。

与其他剪枝方法的对比

此外,研究者将 LLM-shearing 方法与其他剪枝方法进行了比较,并报告了验证困惑度,它是衡量整体模型能力的一个有力指标。

由于计算上的限制,下面的实验控制了所有比较方法的总计算预算,而不是将每种方法运行到最后。

如表4所示,在相同稀疏度下,本文的目标剪枝模型的推理吞吐量比非均匀剪枝 CoFiPruning 模型更高,但困惑度略高。

羊驼剪毛发视频转发

其他分析

表5显示,在控制 token 总量的情况下,增加剪枝开销可以持续改善困惑度。然而,由于剪枝比持续的预训练更昂贵,研究者将0.4B 的 token 分配给剪枝。

更多研究细节,可参考原论文。


返回网站首页

本文评论
球迷超羡慕!苏醒双手搂梅西胳膊与其合影:阿根廷队明日对战澳大利亚
6月14日下午,歌手苏醒在微博晒出自己和球王”梅西的合影。照片中他双手搂住梅西胳膊,还连发了44个哈哈”,兴奋之情溢于言表。在评论区,二人的共同粉丝打出双厨狂喜”,更多人则是...
日期:06-15
这些退伍军人身披“电信蓝”冲锋在涞水灾区一线
通信世界网消息(CWW)河北省涞水县地处山区,本次暴雨过后,通信基础设施受损严重,抢修难度大。了解灾情后,中国电信保定涞水分公司驻义合庄村干部李杰、李金杰主动请缨,是第一批赶赴...
日期:08-06
五一宅家攻略,跟着TCL一起回归生活,足不出户也能拥有美好假期
  五一期间,大国品牌TCL发布了C12灵悉全套系AI家电的系列海报,文案句句直击人心,加上海报画面的强烈视觉感,让人感触颇深......   你有多久没放下工作,好好感受生活了?浑浑...
日期:07-09
微信视频号小商店收费吗「视频号小店30元及以下商品需设置包邮服务」
6月13日 消息:日前,腾讯发布公告称,为营造视频号带货良好环境,规范商家经营行为,保障用户合法权益;现平台针对低价商品调整发布规范,30元(包含)以下的商品需要设置包邮服务(包括港...
日期:06-13
情人节警报:网上出现百家“玫瑰”陷阱(玫瑰情人网举报的原因)
  市民小谢前日给女友网购鲜花不成,反而电脑中招网银被盗,损失了上千元不说,女友还为这事和他翻了脸。而根据360安全卫士恶意网页监测数据,和情人节相关的恶意网页在最近两天...
日期:07-26
openpose gpu「OpenAI回应 被用户吐槽GPT-4性能变差」
北京时间7月21日早间消息,ChatGPT开发商OpenAI在最新博客文章中表示,虽然大多数指标都有所改善,但GPT-4在某些任务上可能表现会更差,此举是对用户最近普遍吐槽该模型比之前的迭...
日期:09-19
又“降价”!特斯拉深圳大补贴:买Model Y最高可领1.2万「深圳特斯拉model3补贴」
快科技4月21日消息,特斯拉又降价”了。据深圳南山区官方消息,参与2023年深圳市南山区爱车南山购”汽车专项促销费活动,推出1亿元购车补贴,购买新能源汽车最高可减3.3万元。爱车...
日期:04-21
百度地图sdk开发指南_百度地图上线API新版本:推Android SDK服务
百度地图推出API 1.2版本(腾讯科技配图)腾讯科技讯 5月25日,继自去年正式对外宣布开放API之后,百度地图近日又上线了相比以前文件更小、加载更快、性能更强的API 1.2版本,另外,还...
日期:07-28
促销潮蔓延!汽车全面降价已来临?湖北部分车型补贴超9万元「湖北购买汽车补贴2020」
“我们的展车已经卖光了,现在只能预定车辆!能不能在补贴政策结束之前拿到车并上牌,我们不敢保证!” 3 月 8 日,在武汉一家东风雪铁龙4S店的抖音号上,销售人员一遍又一遍地对着镜头...
日期:03-09
荣耀手机好评排行榜「安卓好评率排名出炉:荣耀手机出现次数最多」
近日,根据安兔兔官网公布的信息,2023年9月安卓手机好评率排名已经出炉。这次排名的数据来自于安兔兔评测APP内用户对于自己手机的评价,与跑分无关。收集时间为2023年9月1日至9...
日期:10-09
点亮淘宝路:一切为了中小卖家
淘宝大学牵头发起的“点亮淘宝路”中小卖家成长计划吸引了越来越多中小卖家关注的目光。在为期超过半年的“点亮淘宝路”系列活动中,淘宝大学的专业讲师和淘宝网的众多一线...
日期:07-24
阿里大麦成立虾米音乐娱乐内容厂牌,组建独立音乐演出事业部,举办虾米音乐节
  9 月 24 日消息 9 月 24 日,阿里旗下大麦宣布成立虾米音乐娱乐内容厂牌,组建独立音乐演出事业部,全面推进音乐演出厂牌化运营。   虾米音乐娱乐将基于内容、场景和音乐...
日期:09-06
视频调色软件达芬奇 DaVinci Resolve 17.1 正式版发布:为苹果 M1 Mac 提供更高性能
  3 月 10 日消息 根据 BlackmagicDesign 官方的消息,DaVinci Resolve 17.1 版软件更新今天发布,进一步为苹果 M1 Mac 优化。   据了解,本次更新为运行 Apple M1 处理器...
日期:07-16
直播间使用音乐要付费了!收费标准是…_直播间可以放付费的歌吗
来源:央视财经   随着直播行业的蓬勃发展,互联网直播中使用音乐相关版权问题一直被社会关注。直播间使用音乐版权怎么付费?付多少费?一直缺乏具体的行业标准和参考依据。昨天(2...
日期:07-31
增程式技术落后?李想回应:5年内增程式仍是SUV最佳方案「增程式suv是什么意思」
理想汽车CEO李想回应外界对于增程式技术的质疑。云计算与智慧生活8月15日,在理想汽车(Nasdaq :LI;02015.HK)第二季度财报电话会上,李想谈及中长期产品规划时表示,往后看5年,增程式...
日期:09-18
抖音背景音乐大全1000首精选百度云打包下载_抖音背景音乐 百度网盘
  广场上无数天明谷的弟子在纷纷的议论着,此时萧炎的名声在整个帝州迅速传开来,只要说起萧炎这个名字,无一不是尊敬和嫉妒,无一不是佩服和羡慕,这样一位天才,意味着什么,恐怕只...
日期:02-21
凡客诚品全面支持手机购物  B2C抢滩移动互联网市场(凡客诚品官方旗舰店)
  互联网快时尚品牌凡客诚品(VANCL)今日正式对外宣布推出手机凡客网(m.vancl.com)和手机客户端产品,大举进军移动电子商务市场。   凡客诚品相关负责人表示,布局移动电子商务...
日期:07-26
马斯克赚翻了!特斯拉抛售比特币 狂赚一大笔(马斯克卖掉比特币)
7月21日,特斯拉公布了其2022年第二季度财报,特斯拉第二季度营收 169.34 亿美元,同比暴增42%;净利润 22.69 亿美元,同比接近翻倍;特斯拉第二季度自由现金流为 6.21 亿美元,现金及现...
日期:08-05
“瓦格纳事件”一周后,普里戈任的俄罗斯商业帝国已崩溃,除了“瓦格纳”
距离轰动全球的“瓦格纳叛乱”已过去整整一周,“瓦格纳”雇佣兵团及其创始人普里戈任的未来命运引发了大量关注。有报道称,在被证实已抵达白俄罗斯后,普里戈任的私人飞机过去几...
日期:07-03
粤港澳大湾区大数据中心_粤港澳大湾区智慧生活圈初成型  少填798个数据跨境办证更高效
  随着港珠澳大桥的落成和广深港高铁香港段的正式通车,粤港澳大湾区城市群 “一小时生活圈”已经基本成型。伴随交通基础设施的快速发展,微信上各种服务正不断促进粤港澳三...
日期:01-22