您的位置:首页 > 互联网

堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议

发布时间:2023-08-15 19:07:10  来源:互联网     背景:


新智元报道

编辑:桃子

【新智元导读】大模型生成内容还需自我改进。Meta提出的Shepherd模型,能够评估模型生成,给出建议。

近日,Meta AI最新研究,提出了语言模型Shepherd,专门用于评估模型响应并提出改进建议。

对此,研究人员通过社区反馈和人工标注,整体出一个高质量的反馈数据集,大约有70亿参数。


论文地址:https://arxiv.org/pdf/2308.04592.pdf

与GPT-4评估相比,Shepherd的平均胜率为53-87%,远高于其他竞品。

另外,在人类评估中,Shepherd完全优于其他模型,平均水平与ChatGPT接近。

「牧羊人」Shepherd

当前,大模型已经变得越来越复杂,在生成连贯、有语境和语义的文本方面表现出了非凡的能力。

尽管取得了这些进步,大模型仍然经常犯错,产生不可靠和不连贯的输出。

因此,不断批判和改进生成方法,将是迈向更可靠语言模型的非常有益的一步。

在这项研究中,Meta提出了一个语言模型Shepherd,明确地针对批评模型(critique model)生成的输出,进行了调整。

当被要求完善输出时,Shepherd可以指出具体的问题,如事实性、逻辑错误、连贯性和一致性,同时还能提出改进建议。

更具体地说,Shepherd 可以生成自然语言反馈,这些反馈不仅可以给出总体判断,或一般建议,还可以涉及深层次的领域知识,并提供可操作的改进意见。


Shepherd整体框架

为了对Shepherd进行微调和评估,研究人员创建了一个高质量的反馈数据集,由两个不同的数据集组成:

(1) 社区反馈,从在线论坛中收集,以收集更多样化的互动;

(2) 人工标注的反馈,从不同类型任务中收集。

比如,从Stack Exchange和Human Annotation收集的训练数据示例。


Shepherd模型

研究人员以LLaMA-7B为基础模型训练 Shepherd,并使用AdamW作为优化器,β1 = 0.9,β2 = 0.95,权重减少为 0.1。

然后,使用1e-5的学习率和2000个热身步骤,并将批大小设为64,最大序列长度设为2048。

训练数据的格式使用相同的模板,使用「### {field name}」来分隔不同的字段。

为每50个步骤保留检查点,共计3000个步骤。

研究人员手动检查生成的反馈是否能识别错误,或在20个示例的保留集上提出建设性建议,并选出 3 个最佳检查点。

然后,使用GPT-4评估协议,在保留的示例集上选出最佳检查点。

评估

为了检验Shepherd对模型生成的批判能力,研究人员将其与一系列最先进的语言模型进行了比较,包括Alpaca-7B、SelFee-7B和ChatGPT。

通过使用 GPT-4作为评估工具,同时进行人工评估和自动评估。

为了广泛覆盖NLP领域,研究人员精心挑选了6个公共数据集进行评估:

- AlpacaFarm

- FairEval

- CommonsenseQA

- OBQA

- PIQA

- TruthfulQA

这6个数据集涵盖了广泛的主题和推理技能集,包括常识推理、物理推理、数学推理等。

然后,研究人员从每个数据集的验证集/测试集中抽取50个实例,最终的评估集共有300个实例。

团队首先分析了,Shepherd是否能比其他竞争模型生成更好的反馈。在如下图2和图3中分别展示了,使用GPT-4和人工评估的对比较结果。

富士康首款电动汽车


在这两种评估设置中,Shepherd明显优于Alpaca、SelFee。

需要注意的是,Shepherd和SelFee都是经过微调的LLaMA-7B模型,但是SelFee是在一个包含178K示例的数据集上进行微调的,而Shepherd只在一个包含8K示例的数据集上进行了微调。

根据GPT-4评估,Shepherd的性能略高于ChatGPT,而在人类评估中,Shepherd的性能与ChatGPT相当。

总之,在数据集的组合上进行训练后,Shepherd展示出令人印象深刻的结果,在多个下游任务中的表现优于ChatGPT。

iphone 7值不值得升级ios14正式版

对社区反馈和人类标注的反馈数据的影响进行仔细检查后发现,社区数据比人类标注的数据信息量更大、更多样化,但却偏向于非正式性。

这些细微差别使Shepherd能够对不同的任务提供反馈。

同时,研究人员发现,包括用于微调的高质量人类标注数据可以提高模型性能。

然后,研究人员对Shepherd生成的反馈进行了,模型评估(GPT4)以及人工评估,并与最先进的基线进行了比较。


与其他模型相比,Shepherd的评论通常更受青睐。

比如,Alpaca倾向于对模型的所有回应给予积极反馈,从而导致大量错误反馈。

SelFee倾向于提供模糊的反馈,不能准确指出错误,忽略模型的回答或直接回答问题,而不是批评回答。

ChatGPT在不同的评估设置中更加稳定,并在提供正确判断的反馈方面做得更好。

作者介绍

共同一作有2个人。

Tianlu Wang


Tianlu Wang是Meta人工智能研究的研究科学家。

她曾在弗吉尼亚大学获得了计算机科学博士学位,导师是Vicente Ordóñez Román。在此之前,她还获得了浙江大学计算机科学学士学位。

Ping Yu

Ping Yu是FAIR研究科学家。

曾在纽约州立大学布法罗分校获得了计算机博士学位,并在密歇根大学获得了计算工程硕士学位。


参考资料:

https://github.com/facebookresearch/Shepherd

https://huggingface.co/papers/2308.04592


返回网站首页

本文评论
我国将于10月发射嫦娥二号月球探测卫星_我国将于10月发射嫦娥二号月球探测卫星视频
  中国将于10月发射嫦娥二号月球探测卫星,向月球表面发射物体激起扬尘,以分析月球表面的土壤结构。   中国航天科技集团副总经理袁家军6日在中国航天基金颁奖大会暨中国...
日期:07-29
美国维珍轨道公司「维珍轨道公司暂停运营一周:员工休无薪假,股价暴跌50%」
3月16日消息,据外媒援引知情人士消息称,当地时间周三火箭发射公司维珍轨道决定暂停运营一周时间,并安排大部分员工休无薪假,期间寻求能让公司继续维系下去的资金。据悉,当地时间...
日期:03-16
天猫养车推出“天猫养车精英俱乐部”「天猫养车旗舰店」
10月8日消息,由天猫养车联合运营中心举办的首届“天猫养车精英俱乐部——916沙漠心灵之旅”近日顺利闭营,旅程中举行了一场以“享”为主题闭门座谈会,邀请天猫养车精英俱乐部成...
日期:10-10
“全场的希望”视频号,实现腾讯的短视频梦想了吗?_腾讯视频号原创计划
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古、小龙果,授权转载发布。视频号再度成为C位。继腾讯财报中多次重点提及视频号后,腾讯CEO马化腾近期在一场内部讲话中强...
日期:12-24
海信车载终端_海信车载机:“死磕”出来的用户高口碑
  金杯银杯不如用户的口碑。   近日,中企品研对市面上最知名的三个车载机品牌选取400个有效样本进行NPS调研,结果显示,海信车载机在产品设计、报站、小屏、视频预览及录像...
日期:07-16
如何检测笔记本电池是否损坏「如何检测笔记本电池」
笔记本电池是笔记本电脑开机的重要配件,也是不可或缺的能源。为了确保笔记本电池始终正常工作,我们需要对其进行检测和维护。本文将介绍如何检测笔记本电池。1. 笔记本电池的...
日期:05-28
信通院:小米、华为等11家应用商店基本完成APP签名及验签工作「华为手机应用签名未通过」
7月11日 消息:中国信通院表示,目前,小米、华为、OPPO、vivo、360手机助手、百度手机助手、应用宝、豌豆荚和努比亚等9家应用商店,以及抖音和快手2家新型应用分发平台,基本完成AP...
日期:07-11
Ubuntu 配套火狐浏览器发现执行任意代码漏洞,需尽快升级(ubuntu更新火狐浏览器)
  5 月 11 日消息 Ubuntu 昨日发布了新的安全更新,更新公告显示:   系统配套的火狐浏览器 Web Render 组件存在漏洞,当用户被诱导访问恶意网站时,可造成浏览器崩溃或执行任...
日期:12-18
卫星,未来太空数据的_卫星科技下载
想让太空数据服务普通人,需要给卫星装上「新大脑」。作者 | Founder Park俄乌战争中,SpaceX 的星链突然成为了大众的关注点。在战争开始后,马斯克迅速为乌克兰开启了星链服务,很...
日期:09-14
李嘉诚在英国赚了1700倍「英镑贬值 李嘉诚身家蒸发近100亿:"买下了半个英国" 的男人亏大」
今年以来,英镑兑美元汇率整体呈现下跌趋势,重仓布局在欧洲市场的李嘉诚家族企业遭拖累。李嘉诚身家一天蒸发近100亿元...苹果手机折叠新专利无人机光电平台作为昔日的华人首富...
日期:09-28
库克透露苹果曾轻视 AR/VR 潜力 暗示即将推出首款头显「苹果vr头像」
4月4日消息:苹果公司首席执行官蒂姆·库克日前在接受 GQ 采访时似乎预告了该公司即将推出的混合现实头显。库克成为 GQ 2023 年全球创意奖的封面人物。GQ 的 Zach Baron 的...
日期:04-04
天猫618家电大爆发,美的、海尔、格力跻身“亿元俱乐部”(美的,格力,海尔营业额)
  史上最大规模天猫 618 进入冲刺阶段。6 月 16 日,天猫家电行业整体爆发。大家电仅用 90 分钟就打破去年全天成交。美的、海尔、格力、奥克斯等家电品牌,迅速闯入天猫 618...
日期:09-13
古驰unskilledt恤「4000元古驰T恤洗一次褪色 官方这样回应」
近日,一位消费者在清洗古驰 T 恤后发现褪色,引发了公众对古驰品质的质疑。消费者在杭州大厦古驰专柜购买了一件价值4400元的 T 恤,但在清洗后,发现袖子部分出现了明显的褪色。育...
日期:08-02
百度CIO李莹受邀混沌大学课堂 详解新一代人工智能地图的洞察与实践
  随着AI时代的加速到来,第五代地图——人工智能地图应运而生。5月9日,百度副总裁、百度首席信息官(CIO)、百度地图事业部总经理李莹亮相混沌大学课堂,以《新一代人工智能地...
日期:07-08
欧洲电视歌唱大赛指定利物浦为2023年主办城市「足球赛在英国的首都什么举行」
欧洲广播联盟(EBU)和英国广播公司(BBC)宣布,经过激烈的竞标,利物浦被选为第67届欧洲电视歌唱大赛的主办城市。披头士乐队的故乡将代表乌克兰主办第67届欧洲电视歌唱大赛。2023年...
日期:10-20
支付宝可以给微信好友转账了?跟你想的可不一样_支付宝与微信可以转账吗
中关村在线消息:近日,有网友发现了支付宝新增的一项功能并截图分享:画面显示为支付宝二维码界面,扫描二维码就可以在微信/QQ中扫码领取。虽然看起来很美好,但根据实际测试我们发...
日期:10-25
iphone13大降价「iPhone 14最快降价:速度破纪录」
iPhone 14全系开始之后,标准版的两款机型都已经在线下破发,即便有灵动岛,4800万像素等重磅升级的加持,Pro版的两款机型在发售之后溢价也在快速下降,部分型号和颜色在线下已经有原...
日期:10-22
IDC 预计今年全球智能手机出货量下降 3.2%,明年将反弹市场报告_机构预测今年全球智能手机出货量跌3.1% 外国数据
2023/6/1 13:05 IDC 预计今年全球智能手机出货量下降 3.2%,明年将反弹 IT之家  江程(实习) ...
日期:06-03
数据报告显示苹果对小型开发团队的关注:占90% 已成软件生态主力军
  苹果全球开发者大会(WWDC22)开幕前夕,安诺析思国际咨询公司(Analysis Group)的经济学家们发布了一份跟苹果App Store有关的数据报告。  这份名为《聚焦 App Store 上...
日期:07-18
趣店真要转型做预制菜吗?(趣店真要转型做预制菜吗知乎)
小米11 ultra屏幕大小后疫情时代企业生存与发展快递公司暴力分拣三星mega2上市时间微信wine版本 ;   7月26日,围绕着一场直播带来的后续影响,将贾乃亮、傅首尔以及趣店和其...
日期:07-31