您的位置:首页 > 互联网

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强_英伟达362.00

发布时间:2024-08-17 12:48:08  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:杜伟、陈陈、泽南,授权转载发布。

上个月,Meta 发布了 Llama3.1系列模型,其中包括 Meta 迄今为止最大的405B 模型,以及两个较小的模型,参数量分别为700亿和80亿。

Llama3.1被认为是引领了开源新时代。然而,新一代的模型虽然性能强大,但部署时仍需要大量计算资源。

因此,业界出现了另一种趋势,即开发小型语言模型 (SLM),这种模型在许多语言任务中表现足够出色,部署起来也非常便宜。

最近,英伟达研究表明,结构化权重剪枝与知识蒸馏相结合,可以从初始较大的模型中逐步获得较小的语言模型。

图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 也点赞转帖了该研究。

经过剪枝和蒸馏,英伟达研究团队将 Llama3.18B 提炼为 Llama-3.1-Minitron4B 开源了出来。这是英伟达在 Llama3.1开源系列中的第一个作品。

Llama-3.1-Minitron4B 的表现优于类似大小的最先进的开源模型,包括 Minitron4B、Phi-22.7B、Gemma22.6B 和 Qwen2-1.5B。

这项研究的相关论文早在上个月已经放出了。

  • 论文链接:https://www.arxiv.org/pdf/2407.14679

  • 论文标题:Compact Language Models via Pruning and Knowledge Distillation

剪枝和蒸馏

剪枝使模型变得更小、更精简,可以通过删除层(深度剪枝)或删除神经元和注意力头以及嵌入通道(宽度剪枝)来实现。剪枝通常伴随着一定程度的再训练,以恢复准确率。

模型蒸馏是一种将知识从大型复杂模型(通常称为教师模型)迁移到较小、较简单的学生模型的技术。目标是创建一个更高效的模型,该模型保留了原始较大模型的大部分预测能力,同时运行速度更快且资源消耗更少。

蒸馏方式主要包括两种:SDG 微调与经典知识蒸馏,这两种蒸馏方式互补。本文主要关注经典知识蒸馏方法。

英伟达采用将剪枝与经典知识蒸馏相结合的方式来构造大模型,下图展示了单个模型的剪枝和蒸馏过程(上)以及模型剪枝和蒸馏的链条(下)。具体过程如下:

1. 英伟达从15B 模型开始,评估每个组件(层、神经元、头和嵌入通道)的重要性,然后对模型进行排序和剪枝,使其达到目标大小:8B 模型。

2. 接着使用模型蒸馏进行了轻度再训练,原始模型作为老师,剪枝后的模型作为学生。

3. 训练结束后,以小模型(8B)为起点,剪枝和蒸馏为更小的4B 模型。

从15B 模型进行剪枝与蒸馏的过程。

需要注意的点是,在对模型剪枝之前,需要先了解模型的哪部分是重要的。英伟达提出了一种基于激活的纯重要性评估策略,该策略可以同时计算所有相关维度(深度、神经元、头和嵌入通道)的信息,使用一个包含1024个样本的小型校准数据集,并且只需要前向传播。这种方法相比依赖梯度信息并需要反向传播的策略更加简单且具有成本效益。

在剪枝过程中,你可以针对给定轴或轴组合在剪枝和重要性估计之间进行迭代交替。实证研究显示,使用单次重要性估计就足够了,迭代估计不会带来额外的好处。

利用经典知识蒸馏进行重新训练

下图2展示了蒸馏过程,其中 N 层学生模型(剪枝后的模型)是从 M 层教师模型中(原始未剪枝模型)蒸馏而来。学生模型通过最小化嵌入输出损失、logit 损失以及映射到学生块 S 和教师块 T 的 Transformer 编码器特定损失组合来学习。

图2:蒸馏训练损失。

剪枝和蒸馏最佳实践

英伟达基于紧凑语言模型中剪枝和知识蒸馏的广泛消融研究,将自己的学习成果总结为以下几种结构化压缩最佳实践。

一是调整大小。

  • 要训练一组 LLM,首先训练最大的一个,然后迭代地剪枝和蒸馏以获得较小的 LLM。

  • 如果使用多阶段训练策略来训练最大的模型,最好剪枝并对训练最后阶段获得的模型进行重新训练。

  • 对最接近目标大小的可用源模型进行剪枝。

二是剪枝。

  • 优先考虑宽度剪枝而不是深度剪枝,这对于15B 参数规模以下的模型效果很好。

  • 使用单样本(single-shot)重要性估计,因为迭代重要性估计没有任何好处。

三是重新训练。

  • 仅使用蒸馏损失进行重新训练,而不是常规训练。

  • 当深度明显减少时,使用 logit、中间状态和嵌入蒸馏。

  • 当深度没有明显减少时,使用 logit-only 蒸馏。

Llama-3.1-Minitron:将最佳实践付诸应用

Meta 最近推出了功能强大的 Llama3.1开源模型系列,在许多基准测试中可与闭源模型相媲美。Llama3.1的参数范围从巨大的405B 到70B、8B。

凭借 Nemotron 蒸馏的经验,英伟达着手将 Llama3.18B 模型蒸馏为更小、更高效的4B 模型,采取以下措施:

  • 教师微调

  • Depth-only 剪枝

  • Width-only 剪枝

  • 准确率基准

  • 性能基准

教师微调

为了纠正模型训练所基于的原始数据集的分布偏差,英伟达首先在他们的数据集上(94B token)对未剪枝的8B 模型进行了微调。实验表明,如果不纠正分布偏差,教师模型在蒸馏时会为数据集提供次优指导。

Depth-only 剪枝

为了从8B 降到4B,英伟达剪枝了16层(50%)。他们首先通过从模型中删除每个层或连续子层组来评估它们的重要性,并观察下游任务中 LM 损失的增加或准确率的降低。

下图5显示了删除1、2、8或16层后验证集上的 LM 损失值。例如,第16层的红色图表示如果删除前16层,则出现 LM 损失。第17层表示如果保留第一层并删除第2至第17层,也出现 LM 损失。英伟达观察到:开始和结束的层是最重要的。

高通完成全球首个5g

图5:depth-only 剪枝中层的重要性。

然而,英伟达观察到,这种 LM 损失不一定与下游性能直接相关。

下图6显示了每个剪枝模型的 Winogrande 准确率,它表明最好删除第16到第31层,其中第31层是倒数第二层,剪枝模型的5-shot 准确率明显高于随机准确率 (0.5)。英伟达采纳了这一见解,删除了第16到第31层。

图6:当删除16层时,在 Winogrande 任务上的准确率。

Width-only 剪枝

英伟达沿宽度轴剪枝了嵌入(隐藏)和 MLP 中间维,以压缩 Llama3.18B。具体来说,他们使用前面描述的基于激活的策略来计算每个注意头、嵌入通道和 MLP 隐藏维度的重要性分数。

在重要性估计之后,英伟达选择

  • 将 MLP 中间维从14336剪枝到9216。

  • 将隐藏大小从4096剪枝到3072。

  • 重新训练注意头数量和层数。

值得一提的是,在单样本剪枝之后,宽度剪枝的 LM 损失高于深度剪枝。然而,经过短暂的重新训练后,趋势发生了逆转。

准确率基准

英伟达使用以下参数对模型进行蒸馏

  • 峰值学习率 =1e-4

  • 最小学习率 =1e-5

  • 40步线性预热

  • 余弦衰减计划

  • 全局批量大小 =1152

下表1显示了 Llama-3.1-Minitron4B 模型变体(宽度剪枝和深度剪枝)与原始 Llama3.18B 模型、其他类似大小的模型在跨多个领域的基准测试中的性能比较。总体而言,英伟达再次证实了宽度剪枝策略相较于遵循最佳实践的深度剪枝的有效性。

英伟达391.01

表1:Minitron4B base 模型相较于类似规模 base 模型的准确率比较。

为了验证蒸馏后的模型是否可以成为强大的指令模型,英伟达使用 NeMo-Aligner 对 Llama-3.1-Minitron4B 模型进行了微调。

他们使用了 Nemotron-4340B 的训练数据,在 IFEval、MT-Bench、ChatRAG-Bench 和 Berkeley Function Calling Leaderboard (BFCL) 上进行了评估,以测试指令遵循、角色扮演、RAG 和函数调用功能。最后确认 Llama-3.1-Minitron4B 模型可以成为可靠的指令模型,其表现优于其他基线 SLM。

表2:对齐 Minitron4B base 模型与类似规模的对齐模型的准确率比较。

性能基准

英伟达利用 NVIDIA TensorRT-LLM(一种用于优化 LLM 推理的开源工具包)优化了 Llama3.18B 和 Llama-3.1-Minitron4B 模型。

下两张图显示了不同模型在不同用例下以 FP8和 FP16精度每秒的吞吐量请求,表示为8B 模型的 batch size 为32的输入序列长度 / 输出序列长度 (ISL/OSL) 组合以及4B 模型的 batch size 为64的输入序列长度 / 输出序列长度 (ISL/OSL) 组合,这要归功于在一块英伟达 H10080GB GPU 上,较小的权重允许较大的 batch size。

Llama-3.1-Minitron-4B-Depth-Base 变体是最快的,平均吞吐量约为 Llama3.18B 的2.7倍,而 Llama-3.1-Minitron-4B-Width-Base 变体的平均吞吐量约为 Llama3.18B 的1.8倍。与 BF16相比,在 FP8中部署还可使这三种型号的性能提高约1.3倍。

图8:组合:Llama3.18B 为 BS=32,Llama-3.1-Minitron4B 型号为 BS=64。1x H10080GB GPU。

结论

剪枝和经典知识提炼是一种非常经济高效的方法,可以逐步获得更小尺寸的 LLM,与在所有领域从头开始训练相比,可实现更高的准确性。与合成数据式微调或从头开始预训练相比,这是一种更有效且数据效率更高的方法。

Llama-3.1-Minitron4B 是英伟达首次尝试使用最先进的开源 Llama3.1系列完成的探索。要在 NVIDIA NeMo 中使用 Llama-3.1的 SDG 微调,可参阅 GitHub 上的 /sdg-law-title-generation 部分。

有关更多信息,请参阅以下资源:

  • https://arxiv.org/abs/2407.14679

  • https://github.com/NVlabs/Minitron

  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base

  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base


返回网站首页

本文评论
雷军在线求解“技术为本”有没有更好的翻译  米粉答案获点赞_技术为本的重要性
快科技10月13日消息,在此前的小米十周年演讲会上,雷军给未来的小米定下三大指南,即技术为本、性价比为纲、做最酷的产品”。在之前接受记者的采访时,雷军也表示技术创新是小米生...
日期:10-15
公众号的付费阅读「单篇文章收入20W,公众号付费阅读还“香”吗?」
声明:本文来自于微信公众号 西瓜数据(ID:xiguashuju),作者:西楼,授权转载发布。3月28日,2023微信公开课·微信之约大会上公布,视频号将推出创作分成计划和付费订阅。所谓创作分成...
日期:04-06
vivo X100系列手机实拍图公布:日月星辰设计 蔡司镜头_vivo xe100
vivo X100系列手机即将于11月13日正式发布,近日官方公布了该系列新机的实拍图片。vivo X100系列的设计灵感源自日月星辰,延续了东方时尚美学的风格。荣耀magic3prodxomark评分...
日期:11-07
腾讯云涨价「跟进阿里云!腾讯云多款核心产品降价:最高降40%」
快科技5月17日消息,今年4月,阿里云宣布核心产品价格全线下调15%至50%,存储产品最高降50%。至此,由阿里云掀起的云产品价格战打响。互联网新渠道公司华为预约奖励日前,腾讯云宣布多...
日期:05-17
百度沸点重现2019年度记忆,中国人这一年的关注点都在这了(2020百度沸点年度)
  一年一度的百度沸点年度榜单于12月16日正式发布。今年,百度开设了包括年度关键词榜、年度国民骄傲榜、年度事件榜、年度泪点榜、年度流行语榜、年度热议榜、年度科技榜...
日期:07-03
iFixit 拆解显示苹果 AirPods Pro 2 与上代一样几乎无法修复_苹果airpods pro拆机
9月29日消息:拆解维修网站iFixit今天分享了一段苹果第二代AirPods Pro的拆解视频,提供了对新耳塞和充电盒内部的近距离观察。拆解结果证实,AirPods Pro在很大程度上仍然无法维...
日期:09-29
本田公布全新 HondaJet 概念飞机,可实现从纽约至洛杉矶不间断飞行_Honda飞机
  10 月 14 日消息,当地时间 10 月 12 日,本田(Honda)的飞机事业子公司 Honda Aircraft Company(HACI)在美国公务航空会议暨展览会(NBAA)上,展示了概念机型轻型公务机 Honda...
日期:07-17
直面酒店业五大痛点,链宿双拳逐一击破
随着物联网时代的来临、互联网的高速发展以及智能化产品的大范围使用,传统酒店模式已经不满足当代......
日期:09-30
圆梦晚会「因为一首歌,《元梦之星》登上了央视跨年晚会」
12 月 31 日,腾讯旗下正版合家欢派对游戏《元梦之星》改编的歌曲,《圆梦一起 找回自己》登上《启航2024——中央广播电视总台跨年晚会》。据悉,《圆梦一起 找回自己》改编自天...
日期:01-03
淘宝周年庆上线免单刮刮乐:最高可得9999元 仅限今天_2021淘宝周年庆
快科技5月10日消息,日前,淘宝推出510周年庆免单活动,用户只需参加猜题活动即可获得免单机会。今日,淘宝又推出了刮刮乐”新玩法,为百万用户随机免掉一笔历史订单,此前需要答题才可...
日期:05-10
小米 切换开发版「小米新品即将发布 可以双向切换」
中关村在线消息:小米官方宣布,话不多说,与米家新物种见面,还有2天!同时放出了预热海报图,海报的标题为2话不说,双向切换。配图为沙发旁边的长方形不明物体以及正方体,具体是什么不知...
日期:10-14
高铁超员报警无法行驶 无票乘客下车:网友直呼头回见 12306回应合规
据都市快报报道,1月27日,河南至上海高铁由于列车全列超员报警无法开车,没有车票的旅客被请下车。任天堂将发布新款switch主机网友称自己第一次遇见乘坐的高铁超员报警无法行驶,...
日期:01-28
李佳琦健康状况「治好“李佳琦依赖症”」
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬,授权转载发布。9月20日晚,在没有任何预热的情况下,李佳琦悄然复播,最终累计观看超6300万。当晚,业内是相当激动。有媒体...
日期:10-12
联通潍坊奎文区营业厅电话「总投资6100万!中国联通奎文云计算中心加速建设中」
通信世界网消息(CWW)近日,据山东省潍坊市奎文区大数据局相关数据,奎文区第一个数据中心——中国联通奎文云计算中心项目已于今年上半年正式落地开工,目前项目已完成300个机架的铺...
日期:07-18
acdsee2020图形教程「ACDSee 2024 发布!引入更多人工智能技术,图片管理和编辑更高效!」
(原标题:ACDSee 2024 发布!引入更多人工智能技术,图片管理和编辑更高效!) 中国游戏收入占比 由全球图像管理和技术图像软件公司ACD...
日期:12-06
五部门:7月起禁售非国6b标准汽车 同时给予半年销售过渡期
生态环境部、工信部等五部门发布关于执行汽车国六排放标准有关事宜的公告。自2023年7月1日起,全国范围内禁止生产、进口、销售不达到国六排放标准6b阶段的汽车,对于部分实际行...
日期:05-10
中国电信霍晓莉:骨干网400G建设宜根据实际需求及产业链成熟度逐步推进
通信世界网消息(CWW)11月9日,400G/800G与全光网发展研讨会在北京举办,中国电信研究院传输网络研究中心总监霍晓莉表示,骨干网400G即将迎来规模商用周期。综合考虑容量,传输距离,网...
日期:11-12
TCL华星供屏华为nova11与畅享60X 极致窄边框技术赋能完美视觉体验
4 月 17 日,华为新品手机nova11 系列正式发布。据了解,此次nova11 手机屏幕由TCL华星全力打造,通过加持极 致窄边框技术,为nova11 在屏幕性能和美学设计领域再造高峰。nova11 系...
日期:04-19
皇马卖掉c罗「C罗离队 曝苹果欲砸近500亿收购英超曼联俱乐部:CEO库克牵头」
世界杯赛事激战正酣,场内场外都很精彩。尽管葡萄牙队当家球星C罗的首秀尚未进行,和英超曼联俱乐部的口水战已经霸占了多天的体育头条。就在本周,曼联宣布C罗离队,已正式生效。然...
日期:11-26
mediatek天玑1000l与高通骁龙855「MediaTek发布天玑1080移动平台,加速5G终端推向市场」
2022年10月11日,MediaTek天玑系列5G移动平台再添新成员——天玑1080,性能和影像功能更为出色。天玑 1080提供了多项关键技术升级,以MediaTek先进的硬件和软件技术,助力终端厂商...
日期:10-12