您的位置:首页 > 互联网

羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型

发布时间:2023-08-16 14:08:36  来源:互联网     背景:

<script> var cid = "1551529".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.split(',') for(let i=0;i

苹果11电池容量promax

三星Neo QLED电视

猪产品

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:小舟、陈萍,授权转载发布。

数据质量很重要。

这一年来,以 ChatGPT 和 GPT-4为代表的大语言模型(LLM)发展迅速,紧随其后,Meta 开源的 LLaMa、Llama2系列模型在 AI 界也引起的了不小的轰动。但随之而来的是争议不断,有人认为 LLM 存在一些不可控的风险,给人类生存构成一些潜在威胁。

为了应对这些挑战,对 LLM 对齐的研究变得越来越重要,有研究者提出指令跟随(instruction following),但这种方法需要大量的人工注释。然而,注释如此高质量的指令跟随数据集耗费巨大。

本文来自Meta AI 的研究者提出了一种可扩展的方法即指令回译(instruction backtranslation),该方法通过自动注释相应的指令来构建高质量的指令跟随语言模型。

图片

论文地址:https://arxiv.org/pdf/2308.06259.pdf

具体而言,该研究从一个语言模型开始,并作为种子模型,该模型在少量的种子数据以及 web 语料库上进行了微调。种子模型的作用是用来构建训练样本,然后这些样本中的一些高质量样本将会被筛选出来,接着,这些数据被用来微调一个更强大的模型。

经过两轮迭代的数据集对 LLaMa 进行微调,所产生的模型 Humpback 在 Alpaca 排行榜上优于其他现有的非蒸馏模型,如 LIMA、Claude、Guanaco 等。

Humpback 原意为座头鲸,又名驼背鲸,Meta 将模型命名为 Humpback,也别有深意吧。

图片

之所以称为指令回译,研究者表示这借鉴了机器翻译中经典的反向翻译方法,其中人类编写的目标句子会自动用模型生成的另一种语言的源句子进行注释。

图灵奖得主 Yann LeCun 高度概括了这项研究的方法,并称赞 Meta 这项工作为对齐研究做出重要贡献:

图片

还有网友对这项研究进行了很好的概括:数据质量对大模型来说确实很重要,研究过程中,他们使用不同级别的过滤数据,微调了一个模型,结果表明,只有最好的样本才能得出比其他样本表现更好的模型。

该论文提出了一种需要两个步骤完成的新的数据增强范式。首先,必须拥有一组种子(指令、输出)对和语料库才能生成更多好的指令数据。

图片

下图比较了 Humpback 与一些开源模型和专有模型。

图片

下表4表明,本文方法在65B 和33B 模型尺度上都是非蒸馏模型中表现最好的模型。

图片

下面我们看看具体方法。

方法简介

该研究提出了一种自训练方法(self-training),该方法通常假定可以访问基本语言模型、少量种子数据和未标记的样本集(例如网络语料库)。未标记数据往往是一大堆形态各异的文档,由人类编写,其中包括人类感兴趣的各种话题内容,但最重要的是没有与指令进行配对。

这里还有两个关键的假设,第一个假设是这个非常大的文本集(未标记样本集)存在一些子集,适合作为某些用户指令的生成样本。第二个假设是可以预测这些候选答案的指令,这些指令可以用于形成高质量样本对,以训练指令遵循模型。

如下图1所示,该研究提出指令回译过程包含两个核心步骤:

  • 自增强:为未标记的数据(即网络语料库)生成指令,以为指令调优产生训练数据对(指令 - 输出)。

  • 自管理:自主选择高质量样本数据作为训练数据,以微调基础模型来遵循指令,这种方法是迭代完成的。

图片

其中,自管理步骤采用的 prompt 如下表1所示:

图片

实验及结果

本文的数据集主要包括种子数据和增强数据,具体信息如表2和图2所示:

图片

图片

图3表示尽管扩大了数据规模,但没有自我管理(self-curation)的增强数据用来训练模型并不能提高指令跟随性能。

图片

下图比较了不同指令调优数据集的数据效率。

图片

数据和模型的联合扩展:该研究发现在7B 模型中观察到的数据扩展趋势同样也适用于更大的模型。例如对65B 的种子模型增加高质量的增强数据会带来进一步的改进。

图片

常识推理:该研究在五个常识推理基准上进行了测试,SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA (OBQA) , 结果总结于表5中。结果表明,与基础模型相比,本文模型在社会推理等多个方面的表现有所提高。

图片

MMLU:表6总结了不同模型在 MMLU(massive multitask language understanding)的结果。与基础模型相比,本文微调模型提高了零样本准确率,但在5个样本上下文示例中表现不佳。

图片


返回网站首页

本文评论
交个朋友首披盈喜:上半年GMV超50亿元_交个朋友?
7月28日消息,已由港股上市公司世纪睿科控股更名的交个朋友控股(01450.HK)(以下简称“交个朋友”)发布盈喜公告。公告显示,预计2023年交个朋友中期期间净利润不少于4000万元人民币,...
日期:07-28
佳士得获微软联合创始人保罗·艾伦遗产中至少150件艺术品拍卖权,价格或超10亿美元
  《华尔街日报》8月26日消息,佳士得拍卖行本周四证实,已赢得出售微软联合创始人保罗·艾伦遗产中至少150件艺术品的权利。这批藏品的拍卖价格可能超过10亿美元,有望成为拍卖...
日期:08-28
金山装机精灵新增系统重置功能 成网友首款必装软件
  5月3日,金山网络今日正式推出装机精灵1.0版。该产品定位于基础装机服务,可一键式、一站式地为普通电脑用户解决重装系统、安装驱动、还原数据等常见难题。金山装机精灵由...
日期:07-27
首届数贸会打造“五个一”共襄全球数字盛宴「全球贸易数字博览会」
距离首届全球数字贸易博览会正式启幕还有 6 天,我国唯 一以“数字贸易”为主题的国家 级专业展会正在逐步揭开面纱。本届数贸会创新采用实体和数字会展融合方式,共策划“一会...
日期:12-07
playstation销量「分析师称PlayStation 5美国进口量在上个月大幅增加 上月同比增长400%」
一位分析师声称,在过去几个月里,PlayStation 5的美国进口量大大增加。著名的MST金融分析师大卫-吉布森在Twitter上说,进口数据似乎表明,索尼互动在过去几个月里一直在增加其在美...
日期:10-12
黑客会入侵高考网站吗_黑客一年内频频入侵高校网站 却从未被发现
  黑客称“只是善意提醒,不会破坏数据”。昨日上午,有网友报料称,四川师范大学的网站被黑客入侵。随后,记者联系上“入侵者”,得知他还入侵过不少大学的网站,而这些网站至今仍...
日期:07-25
优雅与时尚并存!全新奔驰E级标轴版曝光 重拾“花生大灯” 外观酷似S级
快科技7月7日消息,日前,有网友在网上公布了一组全新奔驰E级的实车照片。从此次曝光的图片来看,全新的奔驰E级家族气息十分浓厚,据了解,全新一代奔驰将继续采用双前脸设计,而图中这...
日期:07-08
李佳琦健康状况「治好“李佳琦依赖症”」
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬,授权转载发布。9月20日晚,在没有任何预热的情况下,李佳琦悄然复播,最终累计观看超6300万。当晚,业内是相当激动。有媒体...
日期:10-12
红魔008l怎么样「红魔8S Pro系列新品发布会」
在今天下午红魔即将推出旗舰手机红魔8S Pro。作为一款专注于电竞体验的游戏手机,红魔8S Pro在性能方面刷新了历史纪录。它将全球首发搭载骁龙8 Gen2领先版处理器,并且配置了惊...
日期:07-06
抖音要做外卖是真的吗「抖音“外卖”怎么样?我们体验了一把」
声明:本文来自于微信公众号 三言财经(微信号:sycaijing),作者:DorAemon,授权转载发布。OPPO小布最新活动前不久,抖音开始布局外卖到家业务的消息引发关注。而近日,抖音外卖服务也...
日期:02-11
申通快递获300亿元银行授信_申通快递融资
9月28日消息,申通快递2022年全国网络大会今日正式召开,明确将打造“中国质效领先的经济型快递”,还与多家银行签署300亿战略合作协议,助力三年百亿产能基建。《快递》杂志报道称...
日期:09-29
国产ChatGPT命名图鉴「国产crt」
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),作者:星晖,授权转载发布。很久不见这般热闹的春天。随着ChatGPT的威名席卷全球,大洋对岸的中国厂商也纷纷亮剑,各式本土大...
日期:04-26
曾致2死3伤 特斯拉潮州事故鉴定结果已出:车主不服 要求重新鉴定
去年11月,广东潮州饶平县一男子驾驶特斯拉准备路边停车时,车辆突然加速狂飙2公里,接连撞上多辆车后才停下,造成2死3伤的严重后果。钱存银行卡里会变多吗据南方都市报报道,针对该...
日期:03-01
微博15亿元收购新浪网:反了?其实只为一座大楼_新浪微博市值超过新浪
12月23日晚,微博股份有限公司发布公告,旗下全资子公司Weibo Hong Kong Limited与新浪公司的全资子公司新浪香港有限公司就买卖新浪网技术(中国)有限公司100%股权订立了若干协...
日期:12-25
chrome手表「谷歌Pixel Watch手表细节曝光:圆润表盘+多配色表带时尚感十足」
据此前官方确认,谷歌将于10月6日(北京时间10月7日晚上10点)举办秋季硬件产品发布会,届时除了全新的谷歌Pixel 7系列旗舰外,旗下第一款智能手表Pixel Watch也将正式与大家见面。而...
日期:10-04
iphone12pro刘海还有吗_iPhone14 Pro真机提前上手,没刘海就是香
中关村在线消息:8月18日,虽然距离iPhone新品发布会已不足一个月,但有关新机的配置以及渲染图已经曝光了不少,但这些都是猜测,并不能代表最后的真机。国货品牌手机心脏突然抽筋一...
日期:08-20
网友抱怨iPhone 14车祸检测太敏感:过山车都能触发自动报警
中关村在线消息:iPhone 14系列、Apple Watch等设备目前都支持一项“车祸检测”全新功能,该功能会通过内置算法自动检测出用户是否发生了意外“碰撞”。虽然苹果表示该功能经过...
日期:10-10
小米14配置曝光,影像大幅度升级,依旧是水桶小钢炮_小米14多少寸
说到今年最热门的旗舰机,一定非小米13莫属,该机凭借着出色的配置,黄金的尺寸与合理的价格,成为了销量最高的骁龙8 Gen2手机。如今小米13已经发布半年多的时间了,下一代小米14的消...
日期:07-18
制胜数字经济时代,如何让组织不拖后腿?
  数字化转型的浪潮已经席卷而来,数字技术的应用将重塑产业价值链和行业竞争格局。对于企业而言,现在需要考虑的问题不是要不要做数字化转型,而是如何规划合理的数字化转型...
日期:09-24
必应搜索器「bing崩了上热搜 网友称微软必应搜索官网无法访问」
5月15日 消息:今日下午,bing崩了登上微博热搜,网友们反馈称,微软旗下必应搜索(cn.bing.com)无法访问。对此,必应方面暂未对此事回应。医美可以推广的所有渠道三星s6钢铁侠限量版据...
日期:05-15