您的位置:首页 > 互联网

MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力

发布时间:2023-07-05 12:46:29  来源:互联网     背景:

<script> var cid = "1540196".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.split(',') for(let i=0;i

三星s23详细参数配置

一加耳机typec

荣耀智慧屏新品发布

7月5日 消息:最近,麻省理工学院(MIT)和微软的研究学者发现,GPT-4在自修复方面表现出了有效能力,而GPT-3.5则没有。此外,GPT-4还能够对GPT-3.5生成的代码提供反馈。

大型语言模型(LLM)已经被证明可以从自然语言中生成代码片段,但在应对复杂的编码挑战,例如专业竞赛和软件工程专业面试时,仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能,自修复是指模型反思并纠正自身代码中的错误。

image.png

论文地址:https://arxiv.org/pdf/2306.09896.pdf

从本研究的实验中,研究者得出以下发现:

考虑到检查和修复的成本,只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5,在所有配置下,修复的通过率低于或等于基线模型或无修复方法的通过率。

即使对于GPT-4,性能提升也是适度的(从66%提升到71%的通过率),而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记,约45个独立同分布(i.i.d.)的GPT-4样本。

使用GPT-4生成的反馈替代GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过了基线的无修复GPT-3.5方法(从50%提升到使用7000个标记时的54%)。

使用人类的解释代替GPT-4自身的解释可以显著改善修复结果,从而使通过测试的修复程序数量增加57%。

爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力,而较弱的模型则没有,这一发现非常有趣,表明大型模型可能具有一种新型的涌现能力,即通过改进自然语言反馈来实现,这种能力可能只存在于模型足够成熟(大而整齐)的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”


返回网站首页

本文评论
“网页视频”木马兴起 360独创“浏览器入沙”拦截
  视频领域一向是木马病毒的温床,此前多数木马主要靠伪装知名播放器传播,在用户安装播放器的过程中感染电脑。然而随着近期快播漏洞公开,一类“网页视频”木马开始悄然出现,...
日期:07-22
iPhone 5c开箱「iPhone 5c 将要被贴上“过时产品”的标签」
DoNews10 月 9 日消息(郭睿琦)据报道,从今年 11 月 1 日起,iPhone 5c 将要被贴上“过时产品”的标签了,同样停止所有维修和服务。iqooneo5什么颜色好看pixel3耳机不兼容解决方法...
日期:10-12
OPPO Reno9售价公布:2499元起_oppo手机reno价格2998
OPPO Reno9手机正式发布,新机有着不错的外观以及独特的工艺,首发共有4款配色,配置也有三款,发布价格如下:8GB+256GB版本售价2499元。12GB+256GB版本售价2699元。12GB+512GB版本...
日期:11-25
苹果与蔡司合作,为Vision Pro生产处方镜片_蔡司生产镜框吗
财联社6月6日电,苹果公司与蔡司(Zeiss)构建合作关系,以便为首款MR产品Vision Pro生产处方镜片。moto360一代国行默克半导体材料王者荣耀纵情是哪个战队的...
日期:06-06
高速成长持续创新  凡客诚品荣膺“中国电子商务成长创新十佳企业”
  在近期召开的第四届APEC电子商务工商联盟论坛上,按照“成长性、创新性、影响力和经典案例”等评选标准,组委会评定互联网时尚品牌凡客诚品(VANCL)为“中国电子商务成长创新...
日期:07-29
中国广电192号段商用开启:最低5G套餐23元「广电192资费标准」
中国广电27日完成在西藏、青海两地启动5G网络服务,至此,除港澳台之外全国31个省市区都开通了广电的5G网络服务。目前中国广电的192号段也开始正式商用。而从中国广电的官网可...
日期:09-30
大众点评网拒删“差评”被婚庆公司起诉_大众点评起诉百度
一条差评,就能让一家小公司惨淡经营。近日,有婚庆公司将大众点评网告上法院,认为后者两年来一直拒删某消费者对该公司的不实负面评价,侵犯了自身名誉权,索赔经济损失1万元。昨天...
日期:07-22
怎么忽然都在说钉钉变好用了呢「怎么忽然都在说钉钉变好用了?」
  上周,钉钉总裁叶军在钉峰会上公开向自家产品“开炮”:  “钉钉消息太多,很烦。”  他说周围很多人讨厌DING消息。“我从来不DING人,只打电话。”  钉钉上提示消息的红...
日期:10-05
三星电视参展2023核聚变游戏节,共赴畅爽游戏盛宴_三星2020款电视上市
6月10日,2023核聚变游戏节在广州保利世贸展馆盛大开幕,该展会为目前国内覆盖城市最多、规模最 大的垂直电子游戏峰会之一。三星电视以“尽情主宰,浸享热爱”为主题,打造了沉浸式...
日期:06-11
惠普CEO李艾科将于周一公布战略计划_李艾科 惠普
  3月14日消息,据报道,消息人士透露,惠普首席执行官李艾科(Leo Apotheker)周一将公布其战略计划,详细阐述如何利用在线服务等科技趋势来发展业务。   一位消息人士称,李艾科虽...
日期:07-26
如何用新技术突破产业发展瓶颈?重庆江津联手阿里云加速当地制造业升级
  引言:对于制造企业来说,实现数字化转型不仅是最复杂的,同时也是最生死攸关的挑战。——《商业评论》2019年7月号,GE前董事长兼CEO杰弗里·伊梅尔特;GE第一位常驻教授维...
日期:05-07
上百度约核酸立减6元,便捷更省钱
  临近春节,越来越多的“打工人”开始计划返乡。但很多人由于工作忙等原因无暇顾及研究核酸检测流程,急匆匆赶到医院,结果发现没预约做不了。别急,这里有一份核酸检测攻略,手...
日期:07-16
腾讯大手笔增资三星财险 互联网巨头持续渗透保险领域「腾讯与三星财险」
  本报记者 郭婧婷 北京报道  随着腾讯增资计划获批,三星财险身份摇身一变,由外国独资变为中外合资的财险公司。  近日,上海银保监局批复同意三星财产保险(中国)有限公司的...
日期:08-31
投屏搜不到电视难题已破,乐播云投屏100%连接?(电视上找不到乐播投屏)
  导读:把手机视频投屏电视看,已成为在家看电视的主流入口之一。对于投屏我们使用得越来越多,可依然有一部分人认为使用投屏有门槛,经常搜不到设备,需要确认是否同一wifi。为...
日期:10-02
微信功能异常大量用户中招!工信部指导腾讯:重要业务安全稳定
快科技4月14日消息,今日,工信部官网发布工业和信息化部信息通信管理局听取腾讯公司关于329”微信业务异常情况汇报”。工信部要求腾讯公司进一步健全安全生产管理制度、落实网...
日期:04-15
HPE发布软件定义机会引擎,同时宣布收购CloudPhysics公司
  近日,HPE发布软件定义机会引擎(Software-Defined Opportunity Engine)并收购CloudPhysics,以实现跨本地和云的更智能的IT。2月23日,HPE全球高级副总裁兼存储事业部总经...
日期:07-16
华为手表3有支付宝功能吗「全新支付宝上线华为WATCH 3:手表能偷能量球了」
手表收蚂蚁森林绿色能量还不过瘾?那就在手表上跟好友的能量球们打个招呼吧!10月13日,全新支付宝现已在华为WATCH 3系列手表上线,好友的能量球,都归你。安装方法:1、使用搭载Harmon...
日期:10-14
《飞车:不羁》预告片发布:放弃Xbox Oen/PS4平台
就在刚刚,EA正式发布了《极品飞车》系列新作:《极品飞车:不羁》的首支宣传预告片,首次展示了游戏的画面、美术风格与特色玩法。纵观整支预告片,最为引人注目的莫过于该作与其他竞...
日期:10-19
荣耀Earbuds 2 SE耳机 32小时续航及主动降噪 获奥运冠军陈一冰青睐
  近日,体操奥运冠军@陈一冰在微博发布了一支Vlog,记录了他的北京“一日游”。该视频中陈一冰向粉丝分享了自己一天的工作日常,同时还在镜头前跟大家一起分享了朋友邮寄给他...
日期:05-02
一加双十一「一加公布双11开门红战报 多款机型获得平台销量TOP3」
中关村在线消息:11月2日凌晨,一加官方发布了双11首日战报,一加Ace Pro斩获京东、天猫、拼多多、抖音四平台3000-3999元价位段手机销量Top2;一加Ace 斩获京东2000-2999元价位段...
日期:11-04