您的位置:首页 > 互联网

7.7亿参数,超越5400亿PaLM!UW谷歌提出分步蒸馏,只需80%训练数据|ACL 2023

发布时间:2023-10-08 11:24:25  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】LLM不实用,小模型蒸馏才是现实的大模型应用路线,全面领先微调技术!土豪请无视。。。

大型语言模型虽然性能优异,可以用零样本或少样本提示解决新任务,但LLM在实际应用部署时却很不实用,内存利用效率低,并且需要大量计算资源。

比如运行一个1750亿参数的语言模型服务至少需要350GB的显存,而目前最先进的语言模型大多已超过5000亿参数量,很多研究团队都没有足够的资源来运行,在现实应用中也无法满足低延迟性能。

也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型,不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。

为了解决大模型的资源需求问题,华盛顿大学联合谷歌提出了一种新的蒸馏机制分步蒸馏(Distilling Step-by-Step),蒸馏后的模型尺寸相比原模型来说非常小,但性能却更好,并且微调和蒸馏过程中所需的训练数据也更少。

论文链接:https://arxiv.org/abs/2305.02301

分布蒸馏机制把LLM中抽取出的预测理由(rationale)作为在多任务框架内训练小模型的额外监督信息。

在4个NLP基准上进行实验后,可以发现:

1. 与微调和蒸馏相比,该机制用更少的训练样本实现了更好的性能;

2. 相比少样本提示LLM,该机制使用更小尺寸的模型实现了更好的性能;

3. 同时降低模型尺寸和数据量也可以实现优于LLM的性能。

实验中,微调后770M的T5模型在基准测试中仅使用80%的可用数据就优于少样本提示的540B的PaLM模型,而标准微调相同的T5模型即使使用100%的数据集也难以匹配。

蒸馏方法

分布蒸馏(distilling step by step)的关键思想是抽取出信息丰富且用自然语言描述的预测理由,即中间推理步骤,可以解释输入问题与模型输出之间的联系,然后再反过来用该数据以更高效的方式训练小模型。

宏碁暗影骑士23.8

分布蒸馏主要由两个阶段组成:

1. 从LLM中抽取原理(rationale)

研究人员利用少样本思维链(CoT)提示从LLM中提取预测中间步骤。

给定目标任务后,先在LLM输入提示中准备几个样例,其中每个样例由一个三元组组成,包含(输入,原理,输出)。

输入提示后,LLM能够模仿三元组演示以生成其他新问题的预测原理,例如,在常识问答案任务中,给定输入问题:

Sammy想要去人群所在的地方。他会去哪里?答案选项:(a)人口稠密地区,(B)赛道,(c)沙漠,(d)公寓,(e)路障

(Sammy wanted to go to where the people are. Where might he go? Answer Choices: (a) populated areas, (b) race track, (c) desert, (d) apartment, (e) roadblock)

通过逐步提炼后,LLM可以给出问题的正确答案(a)人口稠密地区,并且提供回答问题的理由答案必须是一个有很多人的地方,在上述选择中,只有人口稠密的地区有很多人。

通过在提示中提供与基本原理配对的CoT示例,上下文学习能力可以让LLM为没见过的问题类型生成相应的回答理由。

2. 训练小模型

通过将训练过程构建为多任务问题,将预测理由抽取出来,并将其纳入训练小模型中。

除了标准标签预测任务之外,研究人员还使用新的理由生成任务来训练小模型,使得模型能够学习生成用于预测的中间推理步骤,并且引导模型更好地预测结果标签。

通过在输入提示中加入任务前缀label和rationale来区分标签预测和理由生成任务。

实验结果

在实验中,研究人员选择5400亿参数量的PaLM模型作为LLM基线,使用T5模型作为任务相关的下游小模型。

然后在三个不同的NLP任务中对四个基准数据集进行了实验:用于自然语言推理的e-SNLI和ANLI、常识问答的CQA,以及用于算术数学应用题的SVAMP.

更少的训练数据

与标准微调相比,分步蒸馏方法使用更少的训练数据即实现了更好的性能。

在e-SNLI数据集上,当使用完整数据集的12.5%时就实现了比标准微调更好的性能,在ANLI、CQA和SVAMP上分别只需要75%、25%和20%的训练数据。

与使用220M T5模型对不同大小的人工标记数据集进行标准微调相比,在所有数据集上,分布蒸馏使用更少的训练示例优于在完整数据集上训练的标准微调。

更小的部署模型尺寸

与少样本CoT提示的LLM相比,分布蒸馏得到的模型尺寸要小得多,但性能却更好。

在e-SNLI数据集上,使用220M的T5模型实现了比540B的PaLM更好的性能;在ANLI上,使用770M的T5模型实现了比540B的PaLM更好的性能,模型尺寸仅为1/700

更小的模型、更少的数据

在模型尺寸和训练数据同时降低的情况下,也实现了超越少样本PaLM的性能。

在ANLI上,使用770M T5模型超越了540B PaLM的性能,只使用了完整数据集的80%

并且可以观察到,即使使用100%的完整数据集,标准微调也无法赶上PaLM的性能,表明分步蒸馏可以同时减少模型尺寸和训练数据量实现超越LLM的性能。


返回网站首页

本文评论
PC玩家影响力大涨!动视暴雪PC收入首次超越主机_动视暴雪哪年上市
快科技5月9日消息,近日,动视暴雪公布了2023年第一季度财报,在该季度,其PC游戏的收入首次超越主机游戏。财报显示,在第一季度,动视暴雪PC游戏的收入达到了6.66亿美元(约合人民币46.0...
日期:05-10
工信部召开全国防汛应急通信工作部署会议「工信局防汛抗旱应急预案」
6月9日,工业和信息化部信息通信管理局组织召开全国防汛应急通信工作部署会议,传达国家防汛抗旱总指挥部防汛工作要求,对全国防汛应急通信工作进行部署动员。会议指出,党中央、国...
日期:06-12
游戏驿站最大的股东「游戏驿站董事长「散户概念股之王」入股阿里巴巴持股数亿美元」
1月17日消息:据WSJ报道,游戏驿站董事长、号称「散户概念股之王」的Ryan Cohen入股阿里巴巴,持股市值数亿美元。小鹏汽车 创始安卓平板上YouTube塑料壳iPhoneRyan Cohen正在私...
日期:01-17
社评:走出“成长的烦恼”让网络主播职业化路径更清晰
来源:工人日报   要以规范为指引,对网络主播的准入门槛进行分类划定,对需要专业知识背景的网络直播强化资质要求;对网络直播内容和直播方式进行合规性审查,让违法违规内容和行...
日期:07-31
wm刷机包「wm刷机」
随着时代的发展,移动设备的性能越来越强大,手机、平板等设备成为人们日常生活中必不可少的一部分。而在这些设备中,Android系统又是不可或缺的一部分。一些用户可能会发现,原厂A...
日期:05-28
国家乡村振兴局指导蚂蚁集团向160个国家乡村振兴重点帮扶县敬老院捐赠制氧机
1月20日 消息:为做好农村地区疫情防控工作,在国家乡村振兴局的指导下,蚂蚁集团发起专项行动,向160个国家乡村振兴重点帮扶县(以下简称“重点帮扶县”)的敬老院捐赠制氧机,同时支持...
日期:01-20
升腾ai概念股「昇腾人工智能产业高峰论坛顺利举办」
通信世界网消息(CWW)2023年7月6日,昇腾人工智能产业高峰论坛在上海举办。论坛现场,大模型联合创新启动,26家行业领军企业、科研院所与华为将共同基于昇腾AI进行基础大模型与行业...
日期:07-07
雷军2021年会演讲视频「雷军宣布将于8月14日举办年度演讲 主题是“成长”」
凤凰网科技讯8月9日消息,雷军今日在社交媒体发文宣布,将于8月14日(下周一)晚7点举办今年的年度演讲,主题是“成长”。雷军表示,“想和大家聊聊,过去30多年几次关键成长的经历和感悟...
日期:08-09
让库克张大嘴巴:顾客抱着Macintosh参加印度首家苹果零售店开幕_印度有苹果专卖店么
IT之家 4 月 19 日消息,苹果首席执行官蒂姆・库克(Tim Cook)于昨日出席了印度首家零售店 Apple BKC 的开幕典礼,其中发生了一件令他惊讶、张大嘴巴的事情:有位资深的苹果用户抱着...
日期:04-19
2020诺贝尔文学奖获奖作品「2022年诺贝尔文学奖公布:法国女作家安妮·埃尔诺获得1000万奖金」
10月以来,2022年的诺贝尔奖陆续公布,生理或医学奖、物理学奖之前已经公布,今天晚上文学奖也公布了,瑞典文学院在斯德哥尔摩宣布,将2022年诺贝尔文学奖授予法国作家安妮埃尔诺(Anni...
日期:10-10
天玑9200  5月10日登场!安兔兔跑分超136万,再创安卓阵营新高
4月27日,联发科(MediaTek)发布了天玑9200 的预热海报,天玑9200 将于5月10日发布。 海报中的文案写着,“强悍,就看旗舰 ”,可见天玑9200 要在天玑9200的强悍表现上继续升级! 安兔兔官...
日期:04-28
2020年前三季度全球手机销量「谷歌的目标是 2023 年智能手机销量比今年翻一番」
10月8日消息:谷歌CEO Sundar Pichai周五接受日经新闻采访时表示,到2024年的4年内,谷歌计划在日本共投资1000亿日元,其中部分资金将用于开设谷歌在日本的首个数据中心。全球性的...
日期:10-09
网购交易1元或1折起拍?律师:撤销交易属合法
9月1日,部分淘宝卖家开设的团购商品价格突然显示为1元或1折,引起买家抢拍。部分ID甚至一下子拍下1万多件商品。后经调查,是第三方软件服务商北京智能淘网络技术有限公司开发的...
日期:07-22
社交媒体平台 Reddit 力争在 2023 年下半年进行 IPO_最新的社交媒体
2月15日消息:据路透社消息,The Information周二援引熟悉此事的人士的话报道说,社交媒体平台Reddit公司正寻求在今年晚些时候IPO,可能在下半年进行。苹果正式推送ios15系统字体...
日期:02-15
Datablau数语科技完成B1轮融资 加速AI大模型与业务融合「北京数语科技公司人数」
8月8日 消息:近日,Datablau数语科技宣布完成B1轮融资。本轮融资由考拉基金领投,老股东线性资本继续跟投,指数资本担任独家财务顾问。本轮融资后,Datablau将进一步加速重点产业布...
日期:08-08
将提供两种版本 外观类似华为Mate X3 荣耀-X50 GT系列
来源:中关村在线根据博主 @旺仔百事通 日前爆料,荣耀即将推出的 X50 GT手机将提供在线下实体店和线上电商平台两个版本,分别采用直屏和曲屏设计。此前,另一位博主 @数码闲聊站...
日期:10-03
国家邮政局通知要求快递企业春节正常营业(国家邮政局要求物流寄递企业落实)
  针对消费者反映部分快递企业春节期间停止服务的情况,国家邮政局日前再次下发通知,要求快递企业尤其是规模以上企业,要保证重点地区网点的正常营业,合理安排春节期间生产运...
日期:07-26
“运维智简”先行者,安徽联通携手华为打造主动运维体系「联合运维服务模式华为提供哪些资源支撑」
通信世界网消息(CWW)近日,安徽联通联合华为在合肥完成无线运维智能化创新试点。双方基于华为IntelligentRAN的iFaultCare解决方案,协同AUTIN智能运维平台,助力安徽联通构建无线网...
日期:06-07
青少年模式的手机「消保委:多款APP青少年模式下深夜仍能使用」
3月28日 消息:据上海市消保委消息,近日,上海市消保委微信团队下载并安装了20款市场主流的视频、短视频及直播APP,测试下这些APP“青少年模式”的真实情况。上海市消保委表示,经...
日期:03-28
AI缺芯,英伟达卖断货_英伟达ai芯片
声明:本文来自于微信公众号锌财经(ID:xincaijing),作者:钟微,授权转载发布。8月8日,全球计算机业内最重要的圆桌会议,世界计算机图形学会议SIGGRAPH正式召开。NVIDIA创始人兼CEO黄...
日期:08-11