您的位置:首页 > 互联网

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化

发布时间:2024-07-31 16:36:35  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给超级对齐指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。

LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。

后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。

今年1月,Meta和NYU的团队就提出了语言模型的自我奖励机制,使用LLM-as-a-Judge的提示机制,让模型在训练期间进行自我反馈。

论文地址:https://arxiv.org/abs/2401.10020

论文发现,即使不依靠人类标注者,LLM也能通过评价自己的响应实现性能提升。

最近,这个团队又发表了一篇研究,将LLM自我奖励这件事情再拔高了一个层次。

论文地址:https://arxiv.org/abs/2407.19594

毕竟是自己给自己打分,因此不能只关注模型作为actor如何从反馈中优化,也需要保证模型作为judge具备优秀的自我评价能力。

之前的研究就因为过于关注前者而忽略后者,造成了迭代训练期间性能的过快饱和。

甚至,还有可能造成比饱和更差的情况,即对奖励信号的过度拟合(reward hacking)。

因此,来自Meta、NYU、UC伯克利等机构的研究者们提出,还需要增加一个元奖励步骤——让模型评价自己的评价,从而提升评价能力。

虽然听起来有点绕,但实际是合理的。而且实验发现,加上这一层嵌套有显著的提升效果。

比如Llama-3-8B-Instruct在AlpacaEval2上的胜率就从22.9%增至39.4%,比GPT-4的表现更佳;在Arena-Hard上则从20.6%提升至29.1%。

如果说,今年1月发表的研究是LLM-as-a-Judge,那么这篇论文提出的元奖励,就相当于LLM-as-a-Meta-Judge。

不仅Judge不需要人类,Meta-Judge也能自给自足,这似乎进一步证明,模型的自我提升可以摆脱对人类监督的依赖。

Meta科学家Yann LeCun也转发了这篇研究,并亲自下场玩起了双关梗——

Meta提出的Meta-Judge,FAIR能否实现fair?

研究不重要,重要的是Meta FAIR这一波曝光率拉满了。

元奖励(Meta-Rewarding)

用更直白的话说,元奖励方法就是在原有的actor-judge的互动中再引入meta-judge,且由同一个模型分饰三角,不需要额外人类数据的参与。

其中,actor负责对给定提示生成响应;judge负责为自己的响应进行评价和打分;而meta-judge会对自己的打分质量进行对比。

最终的优化目标,是希望actor能生成更好的响应,但训练效率依赖于judge的准确率。

因此,meta-judge作为训练judge的角色,可以同时提升模型作为actor和judge的性能。

这三种角色组成的迭代训练模式如图1所示,在第t个步骤中,先收集模型M_t对提示x的响应,由再让M_t对自己进行评价,由此得到用于训练actor的偏好数据。

之后,给定同一个响应内容y,让M_t生成各种不同评价的变体,由meta-judge进行打分和排名,由此得到用于训练judge的偏好数据。

结合上述的两类偏好数据,通过DPO方法对模型M_t进行偏好优化,就完成了一轮迭代,得到模型M_(t+1)。

长度偏好

之前的工作曾经发现,作为judge的模型会偏好更长的响应,这会导致多轮迭代后答案的长度爆炸。

因此,作者引入了一种简洁的长度控制(length-control)机制——使用参数ρ∈[0,1],权衡judge的评分和响应文本长度。

比如,对于分数在第一梯队的模型响应,即分数范围为[(1-ρ)Smax+ρSmin, Smax],选择其中最短的响应作为最优答案。

Judge偏好数据的创建

首先,选择judge最没有把握的模型响应,通过分数方差衡量judge的确定性。对于每个选中的响应y,我们有最多N个对应的模型评价{j1, … , jN}。

之后,对其中的每一对(jm, jn)进行成对评估,使用如图2所示的meta-judge提示模板。

除了给出评价结果,meta-judge还需要生成CoT推理过程。

为减少meta-judge可能存在的位置偏好(可能倾向于选择最先出现的Judgment A),对同一对数据(jm, jn)会交换顺序让meta-judge进行两次评价,得到单次结果rmn:

引入参数w1、w2用于表征可能存在的位置偏好:

其中win1st和win2nd表示在meta-judge的整个评价过程中,两个位置的评价分别有多少次胜出。

用以上变量构建对决矩阵(battle matrix)B记录每一次的最终结果:

利用Elo评分,可以从矩阵B计算meta-judge给每个judge赋予的元奖励分数。

作者发现,meta-judge和judge一样,也会展现出长度偏好,倾向于选择更长的评价意见。

为了避免最终训出的模型过于啰嗦,构建judge数据集时也采取了过滤措施。如果meta-judge选中的评价意见超过一定长度,整个数据对都会被直接舍弃。

评估实验

实验准备

实验使用Llama-3-8B-Instruct作为种子模型,其他方面的实验设置与之前发表的论文《Self-Rewarding Language Models》一致。

在元奖励训练之前,实验首先在EFT(Evaluation Fine-Tuning)数据集上对种子模型进行监督微调(SFT)。

EFT数据集是根据Open Assistant构建的,并提供初始的LLM-as-a-Judge训练数据,包含经过排名的人类响应,能训练模型充当法官。

对于元奖励迭代,实验利用2万个提示,由Llama-2-70B-Chat经过8-shot提示生成。

如上图所示,训练所用的提示在分布上更接近AlpacaEval数据集,而Arena-Hard的提示集中分布于训练提示的一个子集。

对于每次迭代,实验从该种子集中抽取5,000个提示,总共进行四次迭代。

苹果10月14发布会发布什么

迭代过程如下:

- Iter1:从初始的SFT模型开始,使用DPO(Direct Preference Optimization)对生成的actor和judge的偏好对进行训练,获得M1。

- Iter2:使用DPO对M1生成的actor和judge偏好对进行训练,获得M2。

- Iter3/4:使用DPO仅对M2/M3生成的actor偏好对进行训练,获得M3/M4。

每个prompt都让模型生成K=7个响应,每次迭代总共生成3.5万个响应。然后,我们过滤掉相同的响应(通常删除不超过50个重复项)。

接下来,使用相同的采样参数为每个响应生成N =11^2个不同的判断。

评估方法

元奖励模型的目标是要让模型既能自己演,还能自己评,因此实验也要评估模型在这两个角色中的表现如何。

基线模型是前述论文中提出的自我奖励模型,带有相同的长度控制机制,可以直接对比出元奖励机制带来的性能增益。

首先,先看看如何评判演的怎么样。

实验利用三个基于GPT4-as-a-Judge的自动评估基准,包括AlpacaEval2、Arena-Hard和MT-Bench,分别侧重于模型的不同方面。

例如,AlpacaEval主要关注聊天场景,提示集涵盖了各种日常问题。

相比之下,Arena-Hard包含更复杂或更具挑战性的问题,要在预定义的7个方面(创造力、复杂性、问题解决能力等)满足更多的标准。

MT-Bench有8个不同的问题类别,主要评估模型的多轮对话能力。

另一方面,为了评估LLM法官评的怎么样,实验测量了LLM给的分数与人类偏好的相关性。如果没有可用的人类标注数据,则使用较强的AI法官代替。

指令跟随评估

图3展示了在AlpacaEval基准上,元奖励方法(带有长度控制机制)胜率随训练迭代的变化。

总体来看,元奖励的胜率从22.9%大幅提升到39.4%,超过了GPT-4,并接近Claude Opus模型。

考虑到种子模型参数量只有8B,并且,除了在SFT阶段使用的EFT数据集,没有引入任何额外的人工数据,这是一个相当优秀的结果。

另外,结果也证明了meta-judge和长度控制机制的重要性。

自我奖励模型训练到超过3轮时,开始出现饱和迹象,但带有元奖励的模型并没有,到第4轮时仍保持性能增长。

这表明了对模型评价能力进行训练的重要性,以及meta-judge这一角色的有效性。

如表1所示,经过4轮迭代,无论是自我奖励模型还是元奖励模型,平均响应长度(以字符为单位)都没有显著增加,证明长度控制机制的有效性。

元奖励机制有以下三个较为明显的改进。

首先,将AlpacaEval中的805个类别细分为18个类别进行详细分析,可以看到,元奖励几乎改进了所有类别的响应(图4),包括需要大量知识和推理的学科,例如科学(Science)、游戏(Gaming)、文学(Literature)等。

值得注意的是,旅游(Travel)和数学(Mathematics)这两类,模型并没有实现显著提升。

第二,元奖励改进了对于复杂和困难问题的回答。

实验进一步使用Arena-Hard评估在元奖励方法在回答复杂和具有挑战性的问题上的表现。

表2中的评估结果显示,元奖励在4次迭代中都能提高分数,与种子模型(20.6%)相比,显著提高了8.5%。

第三,元奖励在仅训练单轮对话的情况下也并未牺牲多轮对话能力。

论文进行了MT-Bench评估,以检查在仅训练单轮数据的情况下多轮对话能力的损失。

结果如下表显示,元奖励模型的4次迭代显著提高了第一轮对话得分,从8.319(种子模型)提高到8.738,而第二轮对话得分仅下降了不超过0.1。

这是对基线模型中自我奖励+长度控制(Self-Rewarding + LC)的巨大改进,因为后者通常会在第二轮对话得分上,下降超过0.2,同时没有提高第一轮对话得分。

奖励模型评估

实验评估了模型对种子模型Llama3-8B-Instruct生成响应的判断准确性。

在缺乏人工标注的情况下,作者选择测量元奖励模型与当前最强的判断模型gpt-4-1106-preview之间的评分相关性。

分析采用了两种略有不同的设置,主要区别在于它们如何处理判断模型给出的平局,因此使用了两种指标:将平局计为0.5的一致性分数(agreement)和舍弃平局结果的一致性分数。

结果显示,模型在进行训练后判断能力有所提高。

表3中的分析显示,与基线模型相比,在两种评估设置中,元奖励与强大的GPT-4判断模型之间的相关性显著提高。

这些结果表明,元奖励方法能够改进模型判断能力,使其评估结果与更复杂的语言模型GPT-4的评估结果更加接近。

此外,实验对比了模型判断结果与Open Assistant数据集中人类响应排名的相关性(表7),发现元奖励训练提高了与人类的判断相关性。

小米11pro海外

然而,这种改进在后续训练迭代中没有持续,可能是由于模型生成的响应与人类响应之间的分布差异导致的。

分析

长度控制机制

长度控制机制对于保持模型响应的全面性和简洁性之间的平衡至关重要。

实验比较了最后一次训练迭代中不同长度控制参数ρ的结果,如表4所示:

ρ =0,相当于在偏好数据选择中不进行任何长度控制。

正如预期的那样,这种训练方式使得模型生成的响应变得过于冗长,LC胜率降低。

使用外部奖励模型进行训练

元奖励机制让模型自己作为judge,来评估其自身的响应;实验尝试了使用强大的外部奖励模型Starling-RM-34B作为对比。

然而,结果发现StarlingRM-34B未能在第一次迭代中提高AlpacaEval的LC胜率(24.63% vs.27.85%),这可能是由于其长度偏见。

meta-judge偏见

在元奖励训练的第一次迭代之后,meta-judge几乎总是更倾向于更高分数的判断,如表5所示。

这种分数偏见显著地将判断的评分分布向满分5分倾斜。对于位置偏见,我们也看到在训练过程中有增加的趋势,特别是在比较两个相同分数的判断时。

判断评分变化:为了调查在元奖励训练迭代过程中判断评分分布的变化,实验使用与奖励建模评估相同的验证提示。

使用Llama-3-8B-Instruct在每个提示上生成7个响应,然后为每个响应生成11次判断。图5是评分分布的可视化,密度是使用高斯核密度估算的。

可见,使用meta-judge训练判断进一步增加了其生成高分的可能性。

然而,判断训练的前两次迭代使其倾向于分配4.5、4.75、4.9的分数,根据根据指示这些分数应该是整数。

尽管这些是高分,但它们提供了更细致的区分能力,以区分不同质量的响应。

结论

实验提出了一种新机制,通过使用meta-judge为作为judge的模型分配元奖励(meta-rewards),从而提高模型的评判能力。

这解决了自奖励(Self-Rewarding)框架的一个主要限制,即缺乏对模型评判能力的训练。

为了使元奖励训练(Meta-Rewarding training)更加有效,实验还引入了一种新的长度控制技术,以缓解在使用AI反馈进行训练时出现的长度爆炸问题。

通过自动评估基准AlpacaEval、Arena-Hard和MT-Bench,元奖励方法的有效性也得到了验证。

值得注意的是,即使在没有额外人类反馈的情况下,这种方法也显著改进了Llama-3-8B-Instruct,并超越了依赖大量人类反馈的强基线方法自奖励(Self-Rewarding)和SPPO。

此外,评估模型的评判能力时,它在与人类评判和强大的AI评判(如 gpt-4-1106-preview)的相关性上表现出显著的改进。

总体而言,研究结果提供了有力的证据,证明无需任何人类反馈的自我改进模型是实现超级对齐(super alignment)的一个有前途的方向。

参考资料:

https://arxiv.org/pdf/2407.19594


返回网站首页

本文评论
2019年上市的5g手机_多家国内厂商5G手机上市在即 明年下半年或迎换机潮
  [摘要]业内人士认为,初期由于产业链不成熟,5G手机价格较高。明年下半年随着5G手机放量,售价降低,国内将迎来5G手机换机潮。   本报记者 张兴旺   近日,国家发展改革委等...
日期:08-24
首款5g三防手机「轻薄5G三防手机正式发布,AGM X6售价2799元」
5月21日,三防手机AGM X系列的最 新型号AGM X6正式亮相。在正式发布之前,AGM手机已经提前透露,X6将是一款轻薄的5G三防手机。那么,它究竟有多轻薄?在减轻了重量的同时,其三防功能...
日期:05-21
华为智能眼镜2图赏:够有料,还得高颜值衬托!
对智能眼镜的定义和形态功能的设置,不同厂商有不同的演绎。可最终能杀出血路,得到消费者认可的产品,的确不多,华为就是其中一个。华为mate 50 pro 最新消息作为智能穿戴领域的领...
日期:09-25
马保国直播带货现演“闪电五连鞭”:销量惨淡 网友只看不买「马保国闪电五连鞭表情包gif」
一提到劝年轻人耗子尾汁”的武术大师”,马保国的画面感立马就有了。据南方周末,在4月1日,愚人节当天,72岁的马保国开启了自己的首场直播带货。仅一天时间,吸引了超过1198万人次围...
日期:04-13
支付业版图重构浮现:得牌企业发力五大领域_支付行业格局
  第三方支付发牌在屡次 “跳票”之后,终于在5月26日兑现,27家企业得牌,其中,24家获得互联网支付业务资格,12家获得电话支付业务资格,9家获得预付卡发行牌照,15家获得银行卡收单...
日期:07-28
11月将出现红月亮奇观 抬头可见:还有火星合月等惊叹景观「红月亮天文现象」
在即将到来的11月,将有一次精彩的月全食天象上演,我国大部分地区人们都可以看到月全食的全食阶段,也就是红月亮”,越往东部地区,观测条件越好。央视新闻记者从北京天文馆获悉,这次...
日期:11-03
桔多多618劲爆来袭 畅享“可视化”购物狂欢_桔多多商品
  后疫情时代人们对生活品质的追求不在趋于功能单一、品牌效应不强的产品。据国家统计局的数据显示,自2020年全国居民人均消费支出除去居住、交通、教育娱乐生活等基础消...
日期:03-08
tws+ 华为「以创新音频技术破局 华为引领TWS迈向全链路无损时代」
根据市调机构Canalys的最新报告,2023年第三季度全球TWS耳机出货量增长3.9%。虽然仍保持增速,但TWS耳机市场已经趋于饱和,正从“走量”向“重质”发展。随着产品快速迭代,用户对T...
日期:11-24
收集贩卖公民数据信息 东莞多人被判刑多少年「收集贩卖公民数据信息 东莞多人被判刑」
  来源:法治日报  □ 本报记者  章宁旦  □ 本报通讯员 钟紫薇  网上冲浪、注册账号、信息上传等,都有可能透露个人信息,网络虚拟数据中所承载的公民个人信息、人格...
日期:09-29
阿里巴巴集团新任命两位独立董事(阿里巴巴集团第一组董事)
8月4日消息,阿里巴巴集团宣布,委任希慎兴业集团有限公司执行主席利蕴莲、安永会计师事务所中国前主席吴港平为集团董事会独立董事,于2022年8月4日起生效。在此委任后,阿里巴巴集...
日期:08-22
英语分级阅读受青睐 助力青少年儿童提升阅读能力和素养_英语分级阅读视频
分级阅读,一种科学有效的阅读方法,正逐渐受到中国教育界的青睐。通过人工智能等技术手段的辅助,分级阅读正帮助越来越多的青少年儿童,提升阅读能力和素养。此前,在北京外国语大学...
日期:09-28
1MORE万魔携手品家,开启电商新纪元  ——— 双方签订战略合作协议,共铸电商领域新篇章
2024年7月25日上午10点,在全球声学领域和耳机电商行业中备受关注的万魔声学与品家科技有限公司,于万魔声学总部举行了一场简单而庄重的签约仪式,正式宣布签署战略合作协议,此举...
日期:07-28
12999元 刚上市的第二代铁蛋登上《新闻联播》 网友:太酷了_铁蛋儿tyler中央台访谈
快科技8月16日消息,在8月14日举行的雷军年度演讲活动中,小米发布了CyberDog 2机器狗,又名”第二代铁蛋,售价12999元。这款新品亮相后就登上了《新闻联播》,网友纷纷点赞:太酷了。...
日期:08-16
中国科学院刘勇谈地磁暴:会干扰导航定位精度,但通常对人体健康没有影响
科技《思想大爆炸-对话科学家》栏目第54期,对话中国科学院国家空间科学中心研究员刘勇。嘉宾简介:刘勇,中国科学院国家空间科学中心研究员,中国空间科学学会科普工作委员会主任,...
日期:12-06
云招聘直播带岗 黑科技赋能物流
  2022年服贸会“供应链及商务服务”专题展将于9月1日至5日在北京首钢园5号馆举办,目前已吸引知名律师事务所、头部资产评估机构、中外大型商业企业、国家级人力资源服务出...
日期:08-25
“空中出租车”亮相巴黎航展:可降落空间直径仅需15米「空中出租车最新动态」
快科技6月24日消息,第54届巴黎国际航空航天展览会目前正在进行中,航展上的新型交通工具也吸引了人们的目光,其中就包括德国飞行器制造商开发的空中出租车”。据了解,这款飞行器...
日期:06-24
2022年”代码集结号”全球挑战赛启动
  5月7日消息,IBM、联合国相关机构和 Linux基金会与创始机构David Clark Cause共同启动了2022年”代码集结号”全球挑战赛。  自2018年首次举办,”代码集结号”全球挑战...
日期:07-18
分析称人人公司估值过高 存在三大缺陷(公司估值越高越好是对还是错)
(小贝)北京时间6月25日消息,据国外媒体报道,美国投资网站MoneyShow.com周五发表罗伯特·苏(Robert Hsu)的署名文章称,尽管人人公司成功赴纽约证券交易所上市,但公司估值过高,而且三...
日期:07-30
号称最安全的币圈交易所中币宣布暂停提现,或因480万美元资产被盗
记者/司林威   又一家币圈交易所出现了问题。   8月2日,中币(ZB)交易所突然发布公告称遭遇故障,现停止充币、提币服务,且未告知恢复时间。   除了停止提币外,中币方面未透露...
日期:08-05
Redmi K70至尊版即将发布:暑期档唯一支持IP68的旗舰手机_x7pro 红米k30至尊
6月27日 消息:6月27日,Redmi官方公布了K70至尊版的重要特性:其将成为暑期档唯一支持IP68级防尘防水的旗舰手机。IP68,作为目前手机防尘防水的最高等级,此前多出现在顶级旗舰机...
日期:06-27