您的位置:首页 > 互联网

国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少_rft框架关系理论

发布时间:2023-07-27 18:42:32  来源:互联网     背景:


新智元报道

编辑:LRS 好困

蔚来汽车运营

【新智元导读】最近,来自国内的研究团队提出了一种全新的RLTF技术,可以利用程序的单元测试反馈信号,无需基于人工的人类反馈(RLHF),来自动化提升LLM的代码生成能力。

「程序合成」或「代码生成」任务的目标是根据给定的描述生成可执行代码,最近有越来越多的研究采用强化学习(RL)来提高大语言模型(简称大模型)(LLM)在代码方面的性能。

不过,这些RL方法仅使用离线框架,限制了它们对新样本空间的探索。此外,当前利用单元测试信号的方法相当简单,没有考虑到代码中特定错误位置。

而国内团队最近发布的新型在线RL框架RLTF(即基于单元测试反馈的强化学习),可以将代码的多粒度单元测试反馈结果用于优化code LLM,在训练过程中实时生成数据,并同时利用细粒度反馈信号引导模型生成更高质量的代码。

有趣的是,小编发现这篇论文的作者,和曾经称霸王者峡谷的腾讯绝悟AI的作者,有所重叠。


论文地址:https://arxiv.org/pdf/2307.04349.pdf

具体来说,在线框架RLTF通过细粒度的单元测试反馈来增强预训练的LLM在程序合成任务中的性能,允许模型在训练过程中实时生成新样本,并利用单元测试结果作为反馈信号,从而改善整体模型性能。

此方法使模型能够学习代码错误的具体细节,并相应地提高性能。

大语言模型(LLM)在程序合成任务中表现出色,如Codex、AlphaCode、InCoder等,现有的LLMs在处理更具挑战性的问题(如程序竞赛)方面仍有进展空间且预训练的代码模型在生成代码时可能存在语法和功能上的错误。

基于此,研究人员提出了基于强化学习(RL)的算法来改进代码LLMs的性能,如CodeRL和PPOCoder,但现有的RL方法大多是离线的,而在线RL训练更稳定,能更好地探索环境并得到更优的策略;

且现有的RL方法对单元测试结果的反馈信号较为简单和粗粒度,无法捕捉到代码中具体错误的细节。

tmf框架

RLTF方法引入了多粒度的单元测试反馈(Fine-grained Feedback根据代码的错误类型和错误具体位置,惩罚代码中出现错误的特定部分,Adaptive Feedback根据通过的测试用例比例分配不同的惩罚),并通过实时生成样本和提供多样化的训练样本,提高了模型性能。

RLTF在程序合成任务中取得了APPS和MBPP基准测试的最新成果,并通过消融研究证明了方法的有效性。

方法

论文中提出的任务可以形式化为一个条件概率优化问题,即在给定自然语音描述D和模型可优化参数θ的情况下,最大化正确程序W的概率:


在线RL训练框架

为了更好地探索样本空间,研究人员使用在线学习的方式进行RL训练。


两个LLM共享权重,一个负责梯度回传更新模型,另一个负责在线生成训练样本。

训练样本经过编译器,分配好标签,进而更新online buffer中的数据。

Online buffer负责存储在线训练所用的数据,它在内部维护一个队列,会删除过旧的数据,buffer的更新频率是50个step。

多粒度反馈的强化学习

RL训练的loss可以定义为:


其中,R代表奖励系数,S和E代表代码的起点和终点。

研究人员将编译器的反馈分为3类,eg. Error, Failure, Pass,然后根据不同的编译器反馈,制定了不同粒度的模型奖励。

粗粒度反馈:该反馈的级别建立在上述3类反馈上,和CodeRL,PPoCoder设置相同;


细粒度反馈:粗粒度的反馈只告诉模型「错了」,却没有将具体「哪里错了」告知模型。

而细粒度反馈的目的就是为了解决这一问题,使得模型能更加明确错误产生的原因和位置。为此,研究人员将Error中不同的错误子类型分为U_global,U_line,U_ignore,具体分类见下表;


根据不同的错误子类型,我们有不同的R值和起点终点:

自适应反馈:针对未能通过全部测试样例的数据,我们根据其通过的比率设定了自适应的反馈,这一设置是为了模型能够生成通过尽可能多的测试样例的程序。


如下两个消融实验也验证了「在线训练框架 」和「多粒度反馈」的有效性:



实验

研究人员使用了两个最先进的基于强化学习和code LLMs的方法作为基准,并在相同的基准和设置下进行评估。作者使用了两个不同的编程问题数据集进行评估,分别是APPS和MBPP。

在APPS数据集上,作者使用了RLTF框架对预训练的CodeT5模型进行微调,并取得了优于其他方法的结果。在MBPP数据集上,作者展示了RLTF方法在零样本设置下的性能,取得了新的最优结果。

APPS:使用CodeT5 770M作为基础模型,在APPS数据集上进行评估。与其他基于CodeT5的方法(CodeRL、PPOCoder),和其他更大的模型(Codex、AlphaCode、GPT2、GPT3、GPT-Neo等进行了比较)。


结果表明,RLTF方法在APPS数据集上取得了优于其他方法的结果。

华为mate20pro戴口罩人脸识别

MBPP:论文在MBPP数据集上评估了CodeT5模型在APPS数据集上使用RLTF方法训练的零样本性能,RLTF方法在MBPP数据集上取得了优于不同大小的GPT模型的结果,并达到了新的最优性能。


不同的基座模型:为了展示RLTF方法的鲁棒性,除了使用CodeT5外,论文还使用另一个基础模型CodeGen 2.7B进行实验。

结果表明,在CodeGen 2.7B上应用RLTF方法也取得了令人印象深刻的性能,使得pass@10的提高接近1%。

值得注意的是,研究人员发现,基础模型越大,RLTF提供的性能提升越大,表明RLTF方法可以有效地发挥不同基础模型生成更好代码的潜力,当基础模型大小更大时,影响更为明显。

结论及未来工作

本文提出了RLTF(Reinforcement Learning from unit Test Feedback),一个具有多粒度单元测试反馈的新型在线RL框架,用于优化程序合成任务中的大语言模型。

与现有工作相比,该方法在训练过程中实时生成数据,并同时利用更细粒度的反馈信号引导模型生成更高质量的代码。

大量实验表明,RLTF超越了现有基于RL的方法,并可以应用于各种code LLM,包括CodeT5和CodeGen。此外,它在广泛使用的benchmark(如APPS和MBPP)上实现了最先进的性能。

在未来,有几个方向可以进一步改进RLTF:

例如,现有基准测试中的输入输出示例可能不够多样化,使用隐藏的输入输出示例生成的程序可能不是正确的最终代码版本,这种限制可能会影响RLTF的性能,因此,使用LLM创建更多样化和准确的输入输出示例集是一个值得探讨的潜在研究方向。

此外,是否更细粒度的反馈信号(如来自静态代码分析器的信号)可以进一步提高RLTF的性能,也是另一个可能的研究方向。

参考资料:

各价位手机推荐2020

itrf2014框架

https://arxiv.org/pdf/2307.04349.pdf

rf tag

oppo 如何强制开机


返回网站首页

本文评论
人人公司董事长:中国概念股必受“皮肉之苦”
  对于中国概念股近期大面积下跌,昨日,人人公司董事长兼首席执行官陈一舟接受本报记者专访时表示,中国概念股大多直接照搬美国模式,之前没动脑筋,现在当然要受皮肉之苦。一个...
日期:07-30
美国fcc机构规定美国fcc将_超半数美国人反对FCC对互联网采取监管措施
  北京时间12月31日消息,民意调查机构Rasmussen Reports的一项调查显示,超过半数的美国人反对美国联邦通讯委员会(以下简称“FCC”)对互联网采取监管措施。   调查显示,在10...
日期:07-25
世界独角兽「全球独角兽遭遇“十年之痛”」
  来源:日经中文网  文/奥平和行 今堀祥和   企业估值超过10亿美元的未上市企业被称为“独角兽”已有10年。从约40家增至逾1100家的“独角兽”目前正面临货币紧缩的逆...
日期:09-26
苹果耗费约6年时间自研MicroLED屏幕:未来将用到iPhone上_苹果microled最新进展
1月16日消息,爆料人Mark Gurman透露,苹果公司花了约6年时间研发MicroLED技术,这将是苹果自己定制设计的首款显示屏,这块屏幕会被应用到2024年发布的Apple Watch Ultra上。Mark G...
日期:01-16
二季度游戏收入425亿同比微降 腾讯勒紧裤腰带:未来会进一步优化员工人数和薪酬
每经记者 温梦华;朱鹏;;每经编辑 梁枭;;   8月17日,市场高度关注的腾讯控股(HK0700,股价303.2港元,总市值2.92万亿港元)2022年第二份“成绩单”出炉。   整体来看,无论是今年...
日期:08-18
戴尔发布新款32寸6K显示器:剑指苹果Pro Display XDR「戴尔显示器23.8寸」
戴尔在今年CES上发布了新款6K分辨率的UltraSharp 32显示器,型号为U3224KB。从定位来看,这款显示器的目标也很明确,就是剑指苹果的Pro Display XDR显示器,定位为设计用途的专业显...
日期:01-22
大数据如何赋能线上线下融合_线下数据赋能实体经济,众盟如何引领数字化新浪潮?
  “谁掌握了数据,谁就掌握了主动权。”顶层设计的振臂高挥,使得数据被各行各业奉为圭臬。伴随着线上数据场景愈发集中,且流量红利开始退潮,如何让线下数据赋能实体经济,重构...
日期:05-21
系列销量达7500万!《巫师3》跻身史上最畅销游戏前十「巫师3pc销量」
快科技5月30日消息,今天凌晨,CD Projekt公布了公司2023年第一季度的收益情况,其中就包含了《巫师》系列的销量信息。iphone13系列参数的对比图华为p50pro骁龙版和荣耀magic4根...
日期:05-31
诈骗网红梅尼耶的MCN被申请破产引热议 多位女网红等都受害:网友吐槽行业乱
近日,深圳市游良文化传媒有限公司新增破产审查案件,申请人为江某某,经办法院为深圳市福田区人民法院。公司成立于2022年2月,法定代表人为罗嘉彦。据悉,游良文化为MCN机构,旗下拥有...
日期:04-08
英特尔固态硬盘自 10 月 3 日起将由 Solidigm 直接提供售后服务「英特尔固态客服」
  IT之家 10 月 1 日消息,根据英特尔官网上的信息显示,自 2022 年 10 月 3 日起,英特尔 NAND 固态硬盘产品的所有技术和保修支持均将由 Solidigm 直接提供。华为北斗卫星电话...
日期:10-05
2018年和2019年上半年运营层面已盈利 解读旷视上市背后的隐藏实力
  下一个十年的行业风向是什么?这个曾经虚无缥缈的问题在已经迈入5G时代的今天逐渐明朗了起来,AI的大旗在万众瞩目中逐渐迸发着力量。在AI的红海中,领跑者旷视格外引人注目...
日期:09-08
不用牙膏也能清洁牙齿?贝医生随身冲牙器1天卖出三百万!_洗牙器需要牙膏吗
  每天早起晚睡使用牙膏牙刷清洁口腔,几乎成为所有人的生活习惯。试想一下,若不用牙膏甚至牙刷,也能清洁牙齿和口腔吗?答案当然是可以!   最近在小米众筹上线的贝医生随身...
日期:06-03
东方甄选出抖,为何不选淘宝们?_东方臻选纯债债券a怎么样
声明:本文来自于微信公众号新熵(ID:xinshangxz),作者丨樱木 编辑丨月见,授权转载发布。东方甄选,真没得选。东方甄选不满足于活在抖音里,已经成了一张明牌。7月5日,东方甄选首次在App...
日期:07-11
去哪推酒店直销模式 能否打破携程“渠道垄断”_携程的营销渠道
  近一段时间以来声讨携程“垄断”酒店渠道的声音此起彼伏,而携程更是百口难辩。上周去哪酒店直销上线在一定程度上分散了人们的注意力;去哪网(www.quna.com )打破了传统...
日期:07-29
小米新专利获授权:一卡多号 可节省功耗_小米手机卡1卡2
2月24日消息,小米一卡多号专利获授权,多号共用资源节省功耗。必应app官网据专利显示,小米一卡多号通讯方法包括,向网络侧设备发送网络注册请求,请求中携带有一个国际移动用户标识...
日期:02-25
俄公司推苹果iOS4破解工具 解除硬件加密_苹果6软件加密
5月28日消息,据国外媒体报道,一家俄罗斯的信息安全公司宣布推出第一套商业用途的iOS中破解工具,用以解除苹果最新行动装置上的加密与密码功能。ElcomSoft公司的软件可以破解在...
日期:07-28
Intel处理器品牌正式升级!有请全新的酷睿Ultra_intel13代处理器最新消息
2006年,酷睿(Core)品牌诞生。2008年,酷睿i(Core i)系列诞生,初期包含i3、i5、i7,后来增加了i9。十几年来,酷睿几乎已经成为PC处理器的代名词,也是主流大众的首选,一如奔腾、赛扬般...
日期:06-16
分类有道,变废为宝!小黄狗环保科技深入珠海社区开展环保活动
  为进一步推进生活垃圾分类工作进展,提高居民垃圾分类意识和主动性,宣传资源再生、节约能源的环保理念,近日,在珠海市金湾区三灶镇城乡垃圾分类工作领导小组办公室指导下,三...
日期:08-18
中移动难运营iPhone源于GSM网络半数被TD占用
  联通iPhone 4新政自2010年12月1日实施以来已20多天,令人奇怪的是,作为主角之一,中国移动并未有任何声音及表态。而根据中国移动内部透露的消息是,TD数据业务已占用GSM一半...
日期:07-25
折叠屏手机值不值得买「3500捡漏了折叠屏手机 香疯了」
前不久3500元在“海鲜市场”捡漏淘回来一台OPPO Find N折叠屏手机,起初这款机型刚出的时候我就很喜欢,奈何实在是有些贵,现在OPPO已经出了2代,目前3000多元入手的还是12+512G(原...
日期:02-15