您的位置:首页 > 互联网

教你一行代码「一行代码提高大模型10%性能,开发者:免费午餐」

发布时间:2023-10-23 14:29:59  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:克雷西,授权转载发布。

大模型微调有“免费的午餐”了,只要一行代码就能让性能提升至少10%。

在7B参数量的Llama2上甚至出现了性能翻倍的结果,Mistral也有四分之一的增长。

虽然这种方法用在监督微调阶段,但RLHF模型也能从中受益。

来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une)的微调方式。

这是一种新的正则化技术,可以用于提高微调监督(SFT)模型的性能。

这种方法已经被HuggingFace收录进了TRL库,只要import再加一行代码就能调用。

NEFT不仅操作简便,而且没有显著的成本增加,作者称看起来是个“免费的午餐”。

有网友试着用这种方法微调了基于Guanaco(一种羊驼家族模型)的Mistral-7B,结果性能提升明显。

那么,NEFTune是如何用一行代码给一众大模型“打鸡血”的呢?

向模型中加入噪声

NEFTune的全称是Noisy Embedding Fine Tuning,即“带噪声的嵌入式微调”。

开发者认为,过拟合现象是限制大模型性能的一大因素,因此采用在训练阶段向嵌入层中加入噪声的方式来避免过拟合的出现,从而提高性能。

具体而言,训练数据库中的文本首先会被token化,并转化为嵌入向量。

然后,系统会随机生成一个噪声向量,并用缩放器将噪声调节成所设置的强度。

经过缩放后的噪声会加入到嵌入向量中,作为模型的输入,然后开始训练。

每次迭代训练时,都会生成新的噪声并加入到嵌入层中。

fromtorch.nnimportfunctionalasF

defNEFTune(model,noise_alpha=5)

defnoised_embed(orig_embed,noise_alpha):

defnew_func(x):

ifmodel.training:

embed_init=orig_embed(x)

dims=torch.tensor(embed_init.size(1)*embed_init.size(2))

mag_norm=noise_alpha/torch.sqrt(dims)

returnembed_init+torch.zeros_like(embed_init).uniform_(-mag_norm,mag_norm)

else:

returnorig_embed(x)

returnnew_func

model.base_model.model.model.embed_tokens.forward=noised_embed(model.base_model.model.model.embed_tokens,noise_alpha)

returnmodel

这段代码中,NEFTune函数中的形参noise_alpha就是噪声强度(系数),mag_norm则为实际过程中的噪声范围。

而NEFT只有在训练过程中才会向模型中加入噪声,推理阶段无此过程,代码中的if语句起到的就是这个作用。

训练模式下,new_func函数的返回值即为加入噪声后的嵌入层。

贴出这段代码是为了讲解需要,如果只是想调用NEFT,可以不必使用上面的完整代码,直接从TRL库中调用就可以了。

下面的代码是微调OPT-350M模型的一个示例:

fromdatasetsimportload_dataset

fromtrlimportSFTTrainer

dataset=load_dataset("imdb",split="train")

trainer=SFTTrainer(

"facebook/opt-350m",

train_dataset=dataset,

dataset_text_field="text",

max_seq_length=512,

trainer.train()

而数据集方面,开发者一共使用了Alpaca、ShareGPT等四种不同数据集进行了微调。

作者介绍,选择这些数据的原因包括它们比较著名、曾成为SOTA等等。

此外出于硬件性能考虑,实验过程中所选择的都是单轮对话数据集。

那么,用NEFT方法调校过后的大模型,表现到底怎么样呢?

性能最高提升1倍

研究团队主要测试了模型调校前后生成的文本质量和对话能力。

其中文本质量主要基于AplacaEval数据集,使用ChatGPT和GPT-4评估。

用作参照的模型是Text-Davinci-003,训练后的模型胜过TD3的比例即为评价指标。

为了节约资源,研究团队先用ChatGPT判断是自己来评价还是调用GPT-4,部分情况下还会人工评判。

结果在不同的训练数据集中,Llama2调整后都有至少10%的性能提升,在Alpaca数据集上更是直接翻倍。

推广到OPT和Llama1,NEFT方法同样可以带来一定的性能提升。

而用于评估模型聊天能力的,则是OpenLLM Leadorboard中的任务。

结果发现,NEFT调整后模型的聊天能力同样相比Evol-Instruct有进一步提升。

华为mate 50手机壳5g评测

在成本没有显著增加的情况下,提高文本质量和聊天能力,是否会导致其他能力的下降,作者对此也进行了评估。

结果显示,NEFT方法在不同的数据集和模型上,对模型的其他能力均没有显著影响。

实验过程中,作者还发现,模型生成的文本和并不是照搬训练数据,提示了模型具有一定泛化能力。

为了证实这一点,作者对模型损失进行了评估,结果发现测试数据集损失低于训练数据,证实了这一观点。

一行简单的代码

此外作者发现,经NEFT调整之后,模型生成的文本不仅质量提高,长度也有所增加,而且增加的并非重复内容。

为了确认文本质量的提高是加入噪声的作用而不是由文本长度的增加所导致,研究人员又进行了消融实验。

结果显示,只是强制模型生成更长的文本无法达到NEFT的效果。

论文地址:

https://arxiv.org/abs/2310.05914


返回网站首页

本文评论
配备M2 Pro芯片的新款MacBook Pro和Mac Mini可能在11月推出_macbook m2芯片 预计
随着本周新款iPad Pro、iPad和Apple TV型号的发布,现在我们可以将注意力转向Mac。有传言称,苹果计划在今年晚些时候推出采用M2 Pro芯片的新的高端MacBook Pro和Mac mini机型。...
日期:10-23
斯坦福大学:大多数大语言模型不符合欧盟AI法案 GPT-4仅排第四
7月12日 消息:斯坦福大学著名的以人为中心的人工智能研究所 (HAI) 表示,对10个主要基础模型的调查显示,它们“基本上不”遵守欧盟的人工智能法案。苹果15外观会有改变吗得分最高...
日期:07-12
印度产iPhone15量产:告别自嗨,警惕国产供应链转移印度?
近日,消息称苹果公司计划在印度建立工厂生产iPhone 15。这个消息引起了各方关注,因为这意味着苹果将把制造和组装的重心从中国转移到印度。然而,这个决定不仅仅是为了减少成本...
日期:08-28
报告:74%企业高管乐观看待生成式AI的潜力
7月11日 消息:Capgemini Research Institute的最新报告追踪了1000名高管对生成式人工智能的态度,发现近三分之二的高管认为生成式人工智能的益处超过了担忧,并预计将提升收入...
日期:07-11
荣耀2022年研发投入占收入近10%-要在苹果最强的地方超越苹果 赵明
荣耀CEO赵明新浪科技讯 4月28日下午消息,荣耀深圳研发实验室近日首次对外开放,展示了荣耀Magic系列背后的研发力量。荣耀CEO赵明在接受媒体采访时表示,荣耀在实验室领域是重资...
日期:09-30
苹果Q2营收超预期,宣布900亿美元股票回购_根据2017年8月刚刚发布的苹果q2财报,大中华区
苹果公布2023年Q2财报,净销售收入948.36亿美元,同比下降3%。该公司净利润为241.6亿美元,同比下降3%。尽管下滑,但苹果的营收和每股收益超过分析师预期。该公司还宣布了900亿美元...
日期:05-05
小红书的「电商红利」终于要来了?「小红书的盈利模式详解」
声明:本文来自于微信公众号 真探AlphaSeeker(ID:deep_insights),作者:吴鸿键,授权转载发布。这几年的电商世界风起云涌。短视频和直播给行业带来了全新变量,抖音电商、快手电商借...
日期:08-28
最低1599元起 魅族21系列5款机型曝光
来源:中关村在线卢伟冰红米K50京东通过微信支付事件无线吸尘器排名前十名品牌魅族公司于10月4日最新曝光了5款新机型号,包括魅族21和魅族21 Pro两款。其中3款为国行系列,2款尚...
日期:10-04
谦卑自省!网友称赞胡歌是一位把获奖感言说成满分作文的人
9月5日消息,网友们总结了胡歌发表获奖感言的场面,称胡歌是把获奖感言说成满分作文的人”。此前在3月25日微博之夜颁奖典礼上,胡歌的一番获奖感言就获得了网友的称赞。他在颁奖...
日期:09-05
谷歌Gtalk和AIM实现彻底双向互通
  在未来几天里,Google和AOL将齐心协力打通他们各自旗下的即时通讯产品,也就是Gtalk和AIM,届时Gtalk用户和AIM用户将在各自的聊 天列表里直接看到对方的好友。以前尽管Gmail...
日期:07-27
目氪TM自研光机实现技术普惠,坚果N1投影将三色激光光源下探至3K价位段
1946 年,第 一台计算机eniac在美国宾夕法尼亚大学诞生, 30 吨的庞然巨物注定它无法走进普通家庭。将近 80 年后的今天,苹果的MacBook个人电脑,重量不足1Kg,算力却达到了eniac的数...
日期:04-20
全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型超级英雄XAgent
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。近日,国内领先的人工智能大模型公司面壁智能又放大招,联合清华大学 NLP 实验室共同研发并...
日期:10-18
话费充值卡低价拿货_小额手机充值卡加价售卖 店主抱怨利润微薄
  朝阳区居民李阿姨家两部手机中预充值费用都快到期了,她想买两张小面额的卡分别充进去,延长使用时间。没想到昨天她足足跑了一上午,都没找到能按原价卖小 额充值卡的地儿。...
日期:07-26
雷蒙多终于承认,华为芯片令美不安,并通知中方,将收紧出口管制
雷蒙多是一位主张用政治手段打压我国高精尖产业的美国政客。自她担任美国商务部长以来,美国商务部已经把我国200多家实体列入到“实体清单”等“黑名单”之中。我国企业华为...
日期:10-07
快狗打车“新春淘金季”福利连连,助力司机师傅“新春乐团圆”
  再过一个多月春节就要来了,大多数人都在对本年度的工作进行收尾,也有很多人依旧不愿卸下重担,坚持在工作岗位上拼搏,这其中就包括了那些离乡的货运司机们。的确,对于师傅们...
日期:08-04
女子花3元买到从成都飞曼谷机票 网友:给安全「成都飞曼谷一般多少钱」
据都市时报,四川成都一女子花3元买到从成都飞往曼谷的机票。当事人王女士介绍,自己近期有去曼谷旅行的计划,就在购买机票的APP上打开了低价推送,打开了一个月的时间,一般会收到三...
日期:05-17
嫦娥六号任务进展顺利 计划2024年前后发射_嫦娥六号预计什么时候发射
国家航天局今天发布消息,目前,探月工程嫦娥六号任务正按计划开展研制工作,计划于2024年前后实施发射。iphone14四款新机前置终于大升级锐龙7 4500u嫦娥六号任务开展月球背面采...
日期:09-29
安卓失速,降价过冬_安卓手机降价太快
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者 | 王敏 编辑 | 向小园,授权转载发布。手机厂商们急了。最近“双11”大促,手机厂商们集体开启了大降价。一向价格稳定的...
日期:11-01
GPU大乱斗:苹果A16竟超越AMD锐龙9!Intel小胜M1 Pro
无论是台式机、笔记本,还是手机、游戏机,GPU图形芯片无处不在,但跨平台对比它们的性能并不容易,因为技术路线各不相同,很难统一衡量。锤子绝版手机坚果pro2sBasemark近日推出了全...
日期:10-26
分析师:苹果AR眼镜因设计问题可能推迟到2025年或2026年推出
11月9日消息,据国外媒体报道,苹果公司仍在按计划于明年推出AR/VR头显,但海通国际分析师Jeff Pu表示,由于“设计问题”,传闻中的苹果增强现实(AR)眼镜可能被推迟到2025年或2026年推...
日期:11-15