您的位置:首页 > 互联网

中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术

发布时间:2023-08-27 16:51:16  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:Synced,授权转载发布

随着 LLM 的突破性工作逐渐放缓,对于如何让更多人使用 LLM 成为时下热门的研究方向,模型压缩可能是 LLM 未来的一个出路。此前 OpenAI 首席科学家 Ilya Sutskever 表示可以通过压缩的视角来看待无监督学习。本文首次总结了关于 LLM 的四种模型压缩方法,并提出了未来进一步研究的可能方向,引人深思。

近来,大型语言模型(LLM)在各种任务中表现出色。然而,即便有卓越的任务处理能力,LLM 却面临着巨大的挑战,这些挑战源于其巨大的规模和计算需求。举个例子,GPT-175B 版本具有惊人的1750亿参数,至少需要320GB(使用1024的倍数)的半精度(FP16)格式存储。此外,部署此模型进行推理还需要至少五个 A100GPU,每个 GPU 具有80GB 的内存,这样才能有效地保证运行。

为了解决这些问题,当下一种被称为模型压缩的方法可以成为解决方案。模型压缩可以将大型、资源密集型模型转换为适合存储在受限移动设备上的紧凑版本。此外它可以优化模型,以最小的延迟更快地执行,或实现这些目标之间的平衡。

除了技术方面之外,LLM 还引发了关于环境和伦理问题的讨论。这些模型给发展中国家的工程师和研究人员带来了重大挑战,在这些国家,有限资源可能会成为获得模型所需基本硬件的阻力。LLM 的大量能源消耗会加剧碳排放,人工智能研究与可持续发展也是非常重要的一个问题。解决这些挑战的一个可能的解决方案是利用模型压缩技术,在不显著影响性能的情况下具有减少碳排放的潜力。通过它,人类可以解决环境问题,增强人工智能的可访问性,并促进 LLM 部署中的包容性。

本文中,来自中国科学院信息工程研究所、人大高瓴人工智能学院的研究者阐述了最近在专门为 LLM 量身定制的模型压缩技术领域取得的进展。本文对方法、指标和基准进行详尽的调查,并进行了分类。

论文地址:https://arxiv.org/pdf/2308.07633.pdf

如下图1所示,本文提出的分类法为理解 LLM 的模型压缩方法提供了一个完整的结构化框架。这一探索包括对已有成熟技术的透彻剖析,包括但不限于剪枝、知识蒸馏、量化和低秩因子分解。此外,本文揭示了当前的挑战,并展望了这一发展领域未来潜在的研究轨迹。

研究者还倡导社区合作,为 LLM 建立一个具有生态意识、包罗万象、可持续的未来铺平道路。值得注意的是,本文是专门针对 LLM 的模型压缩领域的首篇综述。

海信产品经理待遇

方法论

剪枝

剪枝是一种强大的技术,通过删除不必要的或冗余组件来减少模型的大小或复杂性。众所周知,有许多冗余参数对模型性能几乎没有影响,因此在直接剪掉这些冗余参数后,模型性能不会收到太多影响。同时,剪枝可以在模型存储、内存效率和计算效率等方面更加友好。

剪枝可以分为非结构化剪枝和结构化剪枝,二者的主要区别在于剪枝目标和由此产生的网络结构。结构化剪枝剪掉基于特定规则的连接或分层结构,同时保留整体网络结构。非结构化剪枝针对单个参数,会导致不规则的稀疏结构。最近的研究工作致力于将 LLM 与剪枝技术相结合,旨在解决与 LLM 相关的大规模和计算成本。

知识蒸馏

知识蒸馏(KD)是一种实用的机器学习技术,旨在提高模型性能和泛化能力。该技术将知识从被称为教师模型的复杂模型转移到被称为学生模型的更简单模型。KD 背后的核心思想是从教师模型的全面知识中转化出更精简、更有效的代表。本文概述了使用 LLM 作为教师模型的蒸馏方法。

研究者根据这些方法是否侧重于将 LLM 的涌现能力(EA)蒸馏到小模型(SLM)进行分类。因此,这些方法被分为两类:标准 KD 和基于 EA 的 KD。对于视觉表示任务,吓图2提供了 LLM 知识蒸馏的简要分类。

华为mate20有智慧生活吗

下图3为基于 EA 的蒸馏概览。

量化

在模型压缩领域,量化已成为一种被广泛接受的技术,以缓解深度学习模型的存储和计算开销。虽然传统上使用浮点数表示权重,但量化将它们转换为整数或其他离散形式。这种转换大大降低了存储需求和计算复杂性。虽然会出现一些固有的精度损失,但精巧的量化技术可以在精度下降最小的情况下实现实质性模型压缩。

量化可以分为三种主要方法:量化感知训练(QAT)、量化感知微调(QAF)以及训练后量化(PTQ)。这些方法的主要区别在于何时应用量化来压缩模型。QAT 在模型的训练过程中采用量化,QAF 在预训练模型的微调阶段应用量化,PTQ 在模型完成训练后对其进行量化。

最近的研究致力于利用量化来压缩 LLM,产生了惊人的结果。这些工作主要可以分为上述三种方法:量化感知训练、量化感知微调和训练后量化。此外,下表1是应用于 LLM 的量化方法的汇总。该表根据 LLM 权重中的位数(精度)将这些工作分为8位量化和低位量化。

低秩分解

低秩分解是一种模型压缩技术,旨在通过将给定的权重矩阵分解为两个或更多具有明显较低维度的较小矩阵来近似给定的矩阵。低秩分解背后的核心思想是将大权重矩阵 W 分解为两个矩阵 U 和 V,使得 W ≈ UV,其中 U 是 m×k 矩阵,V 是 k×n 矩阵,k 比 m 和 n 小得多。U 和 V 的乘积近似于原始权重矩阵,参数数量和计算开销大幅减少。

在 LLM 研究领域,低秩分解被广泛采用,以有效地微调 LLM,例如 LORA 及其变体。本文专注于这些使用低秩分解来压缩 LLM 的工作。在 LLM 的模型压缩领域,研究者经常将多种技术与低秩分解相结合,包括剪枝、量化等,例如 LoRAPrune 和 ZeroQuantFP,在保持性能的同时实现更有效的压缩。

随着该领域研究的继续,在应用低秩分解来压缩 LLM 方面可能会有进一步发展,但仍然需要进行探索和实验,以充分利用 LLM 的潜力。

度量和基准

度量

LLM 的推理效率可以使用各种指标来衡量。这些指标考虑了性能的不同方面,通常与全面评估 LLM 的准确性和零样本学习能力一起呈现。

这些指标包括如下:

  • 参数规模

  • 模型规模

  • 压缩比

  • 推理时间

  • 浮点运算(FLOP)

基准

基准旨在与未压缩的 LLM 相比,衡量压缩 LLM 的有效性、效率和准确性。这些基准通常由不同的任务和数据集组成,涵盖了一系列自然语言处理挑战。常用基准包括但不限于 HULK 和 ELUE。

最后研究者认为未来应在以下几个方面进一步探索,包括

浙派集成灶

  • 专业的基准测试

  • 性能规模的权衡

  • 动态 LLM 压缩

  • 可解释性


返回网站首页

本文评论
程一笑出手,快手电商释放三个信号「快手公司程一笑」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:李秋涵,授权转载发布。小米印度总经理辞职“有点紧张”,在5月9日快手电商引力大会上,快手CEO程一笑在做完自我介绍后说...
日期:05-12
特斯拉中国工厂提速:2023新款Model 3来了 内饰大升级「2021新特斯拉model3」
6年时间过去了,特斯拉也应该推出Model 3的改款了,而它也确实在来的路上了。国外网友Chris Zheng爆料称,特斯拉正在用生产成本明显更低的无纺布取代Model 3的木质装饰,可能还有其...
日期:03-01
搜狐2020年营业额「搜狐2023年Q1营收1.62亿美元,净亏损1300万美元」
5月15日消息,搜狐公司公布2023年第一季度财务报告。财报显示,搜狐公司第一季度总收入为1.62亿美元,其中,品牌广告收入为2300万美元,在线游戏收入为1.29亿美元。杨幂赶集网广告华...
日期:05-15
微软首次利用Facebook平台研究游戏理论(facebook发展史)
  10月13消息,据国外媒体报道,在过去数周内,微软的研究者首次将Facebook用作一个巨大的全球实验室,研究了几百个玩家玩战略游戏的方式。他们研究的结果将会让他们对游戏理论...
日期:07-23
六问,读懂《新产业标准化领航工程实施方案》
通信世界网消息(CWW)工业和信息化部、科技部、国家能源局、国家标准委等四部门近日联合印发《新产业标准化领航工程实施方案(2023─2035年)》(以下简称《实施方案》)。为便于理解...
日期:08-23
支持5G双卡 华为新机上架开售「双卡双5g手机何时出」
近期华为重新上架了一款新的智能手机,该机支持5G,并且这款手机已经陆续上架各大平台,新机有着6.6英寸高刷大屏,4000万超感光夜拍,续航方面也有40W快充。小米何时发布新品这款手机...
日期:11-15
30 岁“古董”电脑,因 ChatGPT 被迫“复工”:在 Windows 3.1 里用上 ChatGPT!
声明:本文来自于微信公众号CSDN(ID:CSDNnews),授权转载发布。ChatGPT 问世的这半年,我们目睹了许多由它掀起的变革和争议,见证了越来越多大模型的崛起,同时推测着未来的发展趋势…...
日期:06-30
网友吵翻!女子回应赚5亿不如月薪5千生娃好 键盘侠不懂什么叫幸福
杭州知名的资深红娘王阿姨在相亲角说了一番话,被发到网络上引发一波又一波网友热议。iphone13promax对比iphone14promax什么叫优秀?结婚孩子生出来叫优秀。你优秀?我儿子5000块...
日期:07-08
山姆最后也去了阿门洲「他有机会成为中国的山姆·阿尔特曼,公司估值20亿美元」
小冰没能成为中国的OpenAI,李笛不遗憾。文|《中国企业家》记者 闫俊文‍编辑|李薇头图来源|受访者清华系的创业者抢尽了大模型创业潮的风头。佼佼者是王慧文与王小川,王慧文成立...
日期:07-27
通信人抗击疫情_致敬!疫情下保障网络通信的联通人!
  一座耀眼闪亮、川流不息的摩登都市   因为一场计划外的寒冬   在2020年伊始变得空旷无人   文化旅游设施闭馆   一切体育赛事暂停   一切营业性演出活动...
日期:06-13
售价直逼30亿 ASML下代EUV光刻机年底问世:1nm工艺必备
快科技6月17日消息,在半导体工艺进入7nm节点之后,EUV光刻机是少不了的关键设备,目前只有ASML能制造,单台售价10亿人民币,今年底还会迎来下一代EUV光刻机,价格也会大涨。光刻机的分...
日期:06-18
百度地图语音包自己录制_录制百度地图语音包 瓜分2000万好礼嗨翻五月
  当中央气象台一条#未来十天全国最高气温预报#的消息登上热搜,看着全国上下一片“红红火火”的景象,不禁感叹又一年“热情的五月方队”已向我们大踏步走来。而正确开启五...
日期:05-18
音频生成文本「Suno推出生成式音频AI模型 可将文字转化为歌词和音乐」
7月21日 消息:近日,Suno公司推出了一款生成式音频 AI 基础模型。不要买当贝投影仪d3x用户只需在Suno的Discord中输入“/sing”命令并加上提示词,即可生成两段大约30秒带歌词的...
日期:07-22
小微企业降费让利「支付宝公布小微商家降费进展:一年降费让利近80亿」
  讯;8月16日上午消息,蚂蚁集团旗下支付宝公布数据,过去一年多来支付宝积极响应国家为小微降费的政策号召,已为小微商家累计减免经营成本近80亿元,超过2200万商家及小微经营者...
日期:10-03
苹果电脑壁纸尺寸比例「苹果电脑壁纸」
是苹果公司用户常用的一种桌面装饰方式。它不仅可以美化电脑桌面,还能够反映使用者的个性和时尚品味。下面将为大家介绍的相关信息。苹果公司一直以来都有着出色的设计风格,特...
日期:05-29
微软拟向美国国防部、NASA等机构开放GPT-4大模型「美国微软公司公告」
6月8日消息,美国当地时间周三,微软公司宣布将向其Azure Government云计算服务客户开放OpenAI的人工智能模型。这些客户包括多家美国政府机构,它们将能够访问GPT-3和GPT-4等大语...
日期:06-08
2022天猫双十一养猫活动入口在哪  双11养猫活动玩法及红包攻略「2021双十一淘宝养猫活动什么时候开始」
今年双十一,天猫不玩盖楼了,改玩养猫游戏。通过玩这个游戏,用户可以领到不少红包优惠券福利。双11养猫活动入口:1、打开手机淘宝app,在首页即可看到“双11喵果总动员”活动入口,...
日期:10-30
中国5G“扛把子” 展锐跃升全球智能手机AP供应商前三(展锐 5G)
  研究机构Counterpoint数据显示,2021年上半年,展锐智能手机应用处理器(AP)出货量同比增长122%,其中第二季度的市占率达到8.4%,跃升全球第四大供应商、在开放市场排名第三。...
日期:05-15
Gartner预测2021年全球公有云终端用户支出将增长23%(中国公有云服务市场报告(2020年Q2))
  ----中国增长达62.1%   全球领先的信息技术研究和顾问公司Gartner公布了2020年公有云IaaS的市场数据,全球IaaS市场比2019年增长了40.9%,而中国的增长达到了62.1%。此外...
日期:10-05
思摩尔出席GTNF论坛,强调以合规和技术创新应对行业挑战
北京时间 4 月 25 日深夜,在英国伦敦举办的全球“行业”论坛(GTNF)结束了第 一场圆桌论坛。思摩尔受邀出席GTNF,与全球健康倡导者、领先的科学家、政府人士和行业专家共同探讨...
日期:04-26