您的位置:首页 > 互联网

无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型

发布时间:2023-08-04 16:36:55  来源:互联网     背景:


新智元报道

编辑:LRS

【新智元导读】省去人工标注成本,用大模型自动生成正面、负面提示,在小参数量模型上表现更佳!

随着大模型的能力越来越强,如何低成本地让模型的输出更符合人类的偏好以及社会的公共价值观,就显得尤为重要。

支付宝领icloud空间

基于人类反馈的强化学习(RLHF)在对齐语言模型上取得了非常好的效果,可以让预训练模型具有无害性、有用性等理想品质,并在多项自然语言处理任务中取得了最先进的结果。

但RLHF在很大程度上依赖于人类提供的标注结果,获取高质量数据的成本过于昂贵且耗时,小型研究团队可能无法支付训练成本。

其他无需人工标注的对齐方法,如RLAIF(基于AI反馈的强化学习)和上下文蒸馏(context distillation)主要利用预设的提示模版,利用现有模型自动生成训练数据,在语言模型对齐上取得了非常不错的效果。

最近,加州大学伯克利分校、Meta AI和加州大学洛杉矶分校的研究人员共同提出了一项新技术RLCD(基于对比度蒸馏的强化学习,Reinforcement learning from contrast distillation),同时结合了RLAIF和上下文蒸馏的优势,使用包含高质量和低质量示例的「模拟偏好数据对」来训练偏好模型,其中示例使用对比的正面和负面提示生成。


论文链接:https://arxiv.org/pdf/2307.12950.pdf

从7B和30B规模的实验结果来看,RLCD在三个不同的对齐任务(无害性、有益性、故事大纲生成)上优于RLAIF和上下文蒸馏基线。

与Constitutional AI相比,RLCD在人类和GPT-4的评估中表现更好,特别是在无害性,有用性和故事概述方面的小模型(7B规模)。

田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。


曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。

曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。

RLCD

与RLHF类似,RLCD从未对齐的语言模型和一组提示开始,将其作为成对偏好数据生成的起点。


对于每个提示p,RLCD 都会生成两个提示p+和p-(上图中的绿色和橙色),分别向鼓励相关属性(如无害性、乐于助人性)和反对相关属性的方向变化。

然后将p+和p-输入进原始LLM,可以得到相应的输出o+和o-,在生成训练对(o+,o-)时,模型会自动将o+标注为首选,而无需进一步的后评分。


最后,遵循标准的RLHF流程,在模拟的成对偏好数据上训练偏好模型,再从偏好模型中选出一个奖励模型,并使用该奖励模型运行 PPO 来对齐原始 LLM。

正反面提示构造

从技术角度来看,如果从现有的 RLAIF 工作流程出发,实现RLCD是非常简单的,主要的难点在于如何构建 RLCD 的正反面提示 p+、p-,以生成偏好对。

研究人员确定了选择提示的两个主要标准:

1. p+应该比p-更有可能产生体现所需属性(如无害性、有用性)的输出;同样,p-可以明确鼓励向相反属性的方向转变。

2. p+和p-的字面形式应尽可能相似,比如只有少部分词有区别,主要是为了避免引入与所需属性无关的意外偏差。

直观来看,p+和p-会产生两种不同的分布,第一条标准确保这两种分布在所需属性上的差异尽可能大,而第二条标准则确保它们在正交轴上的差异尽可能小。

根据经验,就可以发现与使用类似提示的基线相比,RLCD 能够极大地放大提示 p+ 和 p- 的对比度,这一点已通过实验得到证实。

因此,在实际设计p+和p-时,研究人员发现,与第一条标准相比,关注第二条标准往往更有价值,只需在括号中写下简短的描述即可创建 p+ 和 p-

实验结果

实验任务

研究人员在三个任务上,使用三组不同的提示集合进行测评:

1. 无害性提示(harmlessness prompts)

由于聊天过程中经常会出现攻击性或其他社会不可接受的文本,研究人员的目标是,即使是在这种有毒的语境下,模型也要生成社会可接受、合乎道德和/或无攻击性的输出。

次要目标是,输出内容仍需要有助于改善对话并与对话相关,而不是像「谢谢」和「对不起」这样毫无意义的通用回复。

2. 有益性提示(helpfulness prompts)

人类通常会在对话中询问信息或建议,目标是生成有帮助的输出。

3. 大纲提示(outlining prompts)

人类提供故事前提并要求提供大纲的对话,目标是为前提写出一个格式规范、生动有趣的故事大纲,除了要求趣味性、格式正确性、与前提的相关性外,模型还需要有长期规划的能力。

研究人员使用网络上现成的40000个前提,而助手的回答会自动以「Here is a possible outline:」开头,以促使模型以正确的基本格式输出。

RLCD 正面和负面提示

对于无害性任务,研究人员编写了 16 对用于构建 p+ 和 p- 的上下文短语(每次使用时随机抽取一对);这些短语对与 Bai 等人(2022b)使用的 16 个评分提示类似,他们对无害性任务实施了 RLAIF。


对于有用性,研究人员只使用一对短语,分别要求给出有用或无用的回答。


对于大纲,研究人员使用了三个短语对,旨在对比趣味性、格式正确性和前提相关性。


对于无害性和有益性任务,在创建训练信号的同时,通过在「Assistant:」指示中冒号前的括号内放置对比性描述来大致匹配 p+ 和 p- 的字面形式。


基线模型

1. LLaMA,即直接使用未对齐的 LLaMA-7B 基线(与 RLCD 和其他基线对齐的初始 LLM 相同)生成输出,作为合理性检查(sanity check)。

2. RLAIF,遵循Constitutional AI原文,先用AlpacaFarm进行复现,然后使用与原文完全相同的提示模板来进行无害性评分;对于有用性和大纲评分,使用的提示尽可能与RLCD中使用的提示相似。



3. Context-Dist 是一个上下文蒸馏(context distillation)基线模型,仅对RLCD中正面提示p+的输出o+进行有监督微调。

评价指标

在每个任务中,对 RLCD 与每个基线模型成对地进行评估,标注人员需要对200个样例进行对比,给出1(输出A要更好)到8(输出B要更好)的评分。

研究人员还使用GPT-4,通过不同的提示设计,对1000 个示例进行二元评估。


实验结果

在两种评估方式下,RLCD的性能都优于对比的基线模型,验证了数据生成过程在7B和30B规模下的有效性。


人类评估


GPT-4评估

在使用 LLaMA-7B 进行偏好数据模拟时,RLCD 与其他模型相比带来的性能提升尤为明显,即使是最强的基线 RLAIF,也只能在 30B 模型规模的数据模拟中接近 RLCD,而在 7B 模型规模的数据模拟中则表现不佳。

在30B模型规模下,虽然GPT-4在某些情况下更倾向于 RLAIF30B,但人类始终认为RLCD与之相比表现相当或更好,也就是说GPT-4评估与人类的评估结果在30B的模型规模上分歧更大。

RLCD 与基线之间的差异也可以从质量上观察出来。


RLCD 的启示

研究人员认为,RLCD的偏好数据生成与最相似的先验方法 RLAIF 相比更受青睐的一些主要原因是,由于 RLAIF 会生成两个输出o1和o2,在很多情况下,相关属性可能几乎没有差别,可能会导致「信噪比」较低。


根据经验,在使用LLaMA-7B生成 RLAIF 数据时,在标签极性的第60百分位数上,o2更受青睐。

虽然分类模型通常会从接近决策边界的训练示例中获益,但RLAIF中的问题在于这些示例并非人工标注,因此可能存在极大的噪声,如果无法准确标注这些示例,就最好避免使用。

与RLAIF相比,RLCD构建的 (o+、o-) 在指定属性上更有可能存在差异,与 o- 相比,o+ 显然更具道德性。

虽然 RLCD 的输出有时也会有噪声,但平均而言,它们似乎比 RLAIF 的输出更有区别,从而产生了更准确的标签。

参考资料:

https://arxiv.org/pdf/2307.12950.pdf


返回网站首页

本文评论
饿了么起诉美团侵害发明专利 即将开庭「饿了吗告美团」
凤凰网科技讯 1月31日消息,据天眼查App显示,拉扎斯网络科技(上海)有限公司与上海三快科技有限公司、北京三快科技有限公司相关侵害发明专利权纠纷一案新增开庭公告,原告为饿了么...
日期:01-31
网易CEO丁磊:网易云音乐要成为原创音乐人的最佳帮手和推手_网易科技
8月18日,网易发布了2022年第二季度财报。网易Q2净收入为232亿元,研发投入36亿元,研发投入强度达15%,在互联网行业保持领先。财报发布后,网易CEO丁磊、CFO杨昭烜等公司高管出席财...
日期:08-19
视觉中国网站部分恢复上线? 官方回应:并未恢复_视觉中国最新状况
  (原标题:视觉中国网站部分恢复上线? 官方回应:并未恢复)   新京报快讯 今日,有媒体报道视觉中国PC端网站已经小范围恢复上线。对此,视觉(中国)文化发展股份有限公司微信...
日期:11-25
5PB超大存储空间仅8000元_存储2gb 可存储多少mb
中关村在线消息:近日,115网盘推出了全新的终身VIP服务,售价8000元存储空间为5PB。据了解,以此获得的VIP服务资格无终止日期,长期有效;支持在线预览/解压、文档音视频加速转码;云下...
日期:11-30
德国胜诉后 诺基亚继续在澳大利亚等市场向OPPO提起专利侵权诉讼_诺基亚起诉Oppo
在接连两起专利诉讼之后,OPPO 被迫退出了利润丰厚的德国智能手机市场。现在看来,诺基亚还计划在其它市场向 OPPO 发动攻势。NPU 援引一份新报告称,诺基亚已于澳大利亚等地,向 OP...
日期:10-17
曝驱逐舰07七月预售:搭载云辇-C 车长超比亚迪汉「驱逐舰春云」
快科技6月15日消息,据比亚迪经销店处透露,驱逐舰07预计将于7月份正式开启预售。洋码头 曾碧波该车首发亮相于上海车展,预计售价20-25万元,将于今年第三季度上市。新车定位于中型...
日期:06-15
兔年茅台生肖酒上市一周 价格腰斩:一度接近6000元「茅台羊年生肖酒价格当时价格」
2014年,茅台打造了马年生肖酒,之后每年都有这样的生肖款,瞄准春节送礼市场,一直非常有热度。1月5日,兔茅”首发开卖,官方市场指导价2499元/瓶,一度被炒到接近6000元的高度。推特马...
日期:01-13
福布斯2023全球区块链50强:蚂蚁、百度、腾讯等上榜「福布斯区块链50强有哪些」
2月8日讯:今日,福布斯发布2023全球区块链50强,蚂蚁、百度、腾讯等中国企业上榜。iphone14系列才是真香机比较有名的咖啡连锁比特币8万美金...
日期:02-13
教授称有人花百万留学回来月薪5000 网友:出国留学不香了?「花几百万出国留学」
近日,南京大学教授在接受媒体采访时引发了热议,他称现如今的留学生已经不再像以前一样备受追捧。他透露了一个惊人的消息:有人花费巨额资金出国留学,却在回国后只能找到月薪500...
日期:07-07
AMD Zen4 RDNA3加持最强掌机!ROG Ally价格泄露:性能堪比PS5_amd掌机售价
快科技4月27日讯,在AMD发布锐龙Z1处理器后,华硕ROG首款游戏掌机Ally的推出可谓万事俱备,只欠东风,好在已经官宣定档5月11日。没想到,国外一家电商偷跑了ROG Ally掌机的价格,16 512...
日期:04-28
“数”说乡村振兴 :联通数字乡村的智慧十二时辰「中国联通 数字乡村」
通信世界网消息(CWW)炎炎夏日,在江西省宜春市桐山村的果蔬基地,村民们正忙着采摘辣椒、茄子、甜瓜……而在不远处的西瓜大棚,中国联通江西省分公司驻村工作队带领村民们开启了5G...
日期:07-27
ChatGPT 太猖狂?OpenAI 欲打假并研发“文本水印”,网友吐槽:太“鸡肋”
声明:本文来自微信公众号“CSDN”(ID:CSDNnews),整理:苏宓,授权转载发布。这到底是人干的,还是 AI 干的?随着 AIGC 的爆火,在 ChatGPT、Stable Diffusion 模型的推动下,当下想要辨别...
日期:12-14
女子抹护手霜摸UGG靴子被要求买下:双方各执一词!有网友说弄脏就得赔
去店里摸了下鞋子,就被要求买下,这事儿你怎么看?3月1日在湖北武汉,叶女士发文称手上擦了护手霜后在UGG门店内摸了下靴子,被导购要求买下。她表示,当时没有禁止触摸标志、也没有导...
日期:03-07
景区老板怒怼商户要求降价 游客:点赞「景区卖东西贵可以举报吗」
5月23日消息,因游客投诉武汉一4A景区内东西贵,景区老板和商户怒怼了起来,要求不降价就关门。目前该景区183家商户已集体降价,整体降幅25%,大份薯塔价格已从15元降到了13元,矿泉水...
日期:05-24
smart精灵一号「Smart精灵#1推送新版本车机系统 全面提升驾驶体验」
近日,Smart品牌为Smart精灵#1推出了新版车机系统更新。版本号为Smart OS 1.1.10 CN,共新增11项功能,优化7处使用体验。进一步丰富了车载生活,提升了车辆的智能化和驾驶时的便捷...
日期:06-17
ios14黑色壁纸「iOS 16.1 Beta下使用黑色壁纸或黑暗模式时 灵动岛周围会增加灰色边框」
在最新的iOS 16.1测试版中,苹果调整了iPhone 14 Pro和Pro Max上灵动岛的设计,使其在黑暗背景下更加明显。当使用深色壁纸或激活黑暗模式的深色界面时,当屏幕变暗或灵动岛处于主...
日期:10-08
江苏拟规定电视开机广告必须关闭_电视开机广告不能一键关闭被判侵权
  3 月 10 日,由中国电子商会组织,江苏省消费者权益保护委员会、深圳市消费宝网络科技有限公司提出并牵头起草的《智能电视开机广告技术规范(征求意见稿)》正式向有关单位...
日期:09-03
外交部回应苹果下架香港暴徒帮手App
  10月10日消息 据央视新闻消息,中国外交部发言人耿爽今天表示,近来发生在香港的极端暴力犯罪行为,理应予以反对和抵制,而不是支持和纵容。我们欢迎外国企业到华来投资,当然前...
日期:09-20
理想汽车申请充电站商标「理想电动车充电」
11月24日 消息:企查查APP显示,近日,理想汽车关联公司北京车和家信息技术有限公司申请注册多个“理想超级充电站”商标,国际分类包括运输工具、科学仪器等,当前商标状态均为注册...
日期:11-29
场观超1000万,张兰大卖酸辣粉,​靠娱乐八卦出圈能火多久?
声明:本文来自微信公众号“三言财经”(ID:sycaijing),作者:三言,,授权转载发布。近几日,汪小菲和大S的隔空开撕彻底出圈。汪小菲发了数十条微博,汪小菲母亲、俏江南创始人张兰也加...
日期:11-25