您的位置:首页 > 互联网

GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法

发布时间:2023-09-01 16:29:48  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】让模型用代码自我验证解决方案,结合多数投票集成机制,推理准确率可以提升近30%!

虽然大型语言模型(LLMs)在常识理解、代码生成等任务中都取得了非常大的进展,不过在数学推理任务上仍然存在很大改进空间,经常会生成无意义、不准确的内容,或是无法处理过于复杂的计算。

最近推出的一些语言模型,如GPT-4, PaLM-2都在数学推理上取得了重大进步,特别是OpenAI的最新版模型GPT-4Code Interpreter,在较困难的数学推理数据集上也展现出了很高的性能。

为了探索「代码生成任务」对「语言模型推理能力」的影响,来自香港中文大学、南京大学、中国科学技术大学、清华大学、香港城市大学、长沙理工大学和塔夫茨大学的研究人员联合发布了一篇论文,通过在代码使用频率(Code Usage Frequency)上引入不同的约束限制进行实验验证。

极米New z6x

论文链接:https://arxiv.org/abs/2308.07921

实验结果显示,GPT-4Code Interpreter模型的成功在很大程度上要归功于「在生成和执行代码、评估代码执行的输出以及在收到不合理的输出」时纠正其解决方案方面的强大能力。

基于上述结论,研究人员提出了一种新颖且高效的提示方法,显式的基于代码的自我验证(CSV, code-based self-verification),以进一步提高GPT-4代码解释器的数学推理潜力。

该方法在GPT-4Code Interpreter上采用zero-shot提示,以促使模型使用代码来对答案进行自我验证。

三星准备推出512gbddr5-7200内存

在验证状态为「假」的情况下,模型将自动修改其解决方案,类似于人类在数学考试中纠错的过程。

此外,研究人员还发现验证结果的状态可以指示解决方案的置信度,并进一步提高多数表决的有效性。

通过结合GPT-4Code Interpreter和CSV方法,在MATH数据集上的零样本准确率实现了从54.9%到84.3%的巨大提升。

LLM的推理能力从何而来?

为了探索代码的使用对GPT4-Code解决数学问题能力的影响,研究人员采用了一种很直接的方法,即通过精心设计的提示来限制GPT4-Code与代码的交互。

具体包括两种代码限制提示以及一种基础提示用来对比:

提示1:No code usage is allowed(不允许使用代码)

GPT4-Code不允许在其解决方案中添加代码,也就是说模型只能完全依赖自然语言(NL)推理链,类似于思维链(CoT)框架中的解决方案,由此产生的推理步骤序列叫做CNL,如上图中(a)所示。

提示2:Code can be used only once(代码只能使用一次)

GPT4-Code只能用单个代码块内的代码来生成解决方案,类似于之前的PAL方法,论文中将此序列称为CSL,即使用符号语言(SL),如Python进行推理,上图中(b)为样例。

基本提示:对代码使用没有任何限制。

推理序列可表示为

,其中每个步骤都由自然语言和 Python 代码组成,示例如上图中(c)所示。

除此之外,研究人员还引入了代码使用频率(Code Usage Frequency)来记录不同提示下的代码执行次数,结果表明,GPT4-Code的高性能与高代码使用频率之间存在正相关。

具体来说,提示2使用的代码量比提示1多了一倍,并且提示2比提示1的准确率提高了6.9%,表明Python代码链CSL比自然语言链CNL更能提高计算能力,这一观察结果与之前基于Python的提示方法结果一致。

ipad pro更新换代

不过只能使用一次代码也存在缺陷,当代码输出引发错误或产生非预期的结果时,模型缺乏自我调试(self-debugging)的能力。

在对比提示2和基本提示时,可以发现,基本提示始终能生成包含多个代码使用实例的解决方案,即代码使用频率更高,并且基本提示的准确性也明显提高。

具体可以归因于代码的两个优势:

1. 生成一些简短的代码块,可以分割自然语言推理步骤,从而带来更高的准确率;

2. 模型有能力评估代码执行结果,并在结果中发现错误或不合逻辑的解决步骤,并进行修正。

基于代码的自验证CSV

比亚迪新能源汽车上海车展

受代码使用频率分析观察结果的启发,研究人员决定利用GPT4-Code的代码生成、代码评估、代码执行,以及自动调整解决方案等能力来增强方案验证,以提高推理性能。

CSV的主要流程就是对GPT-Code输入提示,来显式地通过代码生成来验证答案正确性。

对解决方案C的验证结果V可以分为「真」、「假」、「不确定」三类。

与CSV结合后,模型能够使用代码来验证答案,然后在验证结果为「错误」的情况下审查并调整得出解决方案的方式,从而获得正确答案。

在完善和修正初始解决方案后,准确率可以得到显著提高。

值得注意的是,验证(verification)和修正(rectification)阶段都是基于代码的,所以必然会导致代码使用频率的增加。

在 GPT4-Code 出现之前,先前的框架大多依赖于外部LLM使用自然语言进行验证和精心设计的少样本提示。

相比之下,CSV方法仅依赖于GPT4-Code的直接提示,以零样本的方式简化了流程,利用其先进的代码执行机制来自主验证和独立修正解决方案。

研究人员还将验证阶段集成到了加权多数表决(majority voting)中,为验证过程的各个状态分配了不同的权重。

为了防止答案被确认为「假」后不再进行其他验证,研究人员将三种状态分配了不同的权重:wT, wF和wU,可以增加系统的可靠性。

为了简单起见,集成算法从k个解决方案中提取一对最终答案及其相应的验证结果,表示为

其中v和a分别代表第i个最终答案和最终验证结果。

因此,每个候选答案 a 的投票得分可以表示为:

最后从所有候选答案中选出得分最高的答案:

实验结果

MATH数据集

GPT4-Code在MATH基准上的准确率达到了69.69%,大大超过了之前的方法(53.90%),表明 GPT4-Code在解决数学问题方面表现出很强的能力。

在GPT4-Code的基础上,文中提出的CSV方法进一步提高了准确性,将准确率提高到了73.54%;

在加入基于代码的显式自我验证和验证引导的加权多数投票(采样路径数为16)后,结果进一步提高到了84.32%

需要注意的是,虽然增加基于代码的自我验证可以提高题目的成绩,但具体程度因题目难度、形式而异。

其他数据集

研究人员还在其他推理数据集上应用了CSV方法,包括GSM8K、MMLU-Math 和 MMLU-STEM

从结果上来看,CSV+GPT4-Code在各个数据集上都取得了最优的结果。

与带有模型选择功能的GPT-4和 PHP相比,验证引导的多数表决是减少采样路径数量的有效框架。

CSV方法与现有模型在MMLU-Math和MMLU-STEM数据集上的性能对比中,可以看到开源模型明显优于闭源模型。

为了弥补这一差距,研究人员表示目前已经开始着手准备制作数据集,并将在不久的将来公开发布。

其他开源LLM模型,如LLaMA2可以利用该数据集进行微调,并进一步提升数学推理能力。

参考资料:

https://arxiv.org/abs/2308.07921


返回网站首页

本文评论
曾排名国内服装品牌第一:拉夏贝尔正式破产清算_拉夏贝尔旗下女装品牌
快科技6月22日消息,近日,据上海破产法庭”微信号近日发布的消息显示,新疆拉夏贝尔服饰股份有限公司(拉夏贝尔)因不能清偿到期债务,并且明显缺乏清偿能力,经债权人申请,上海市第三中...
日期:06-22
三星将在今晚7点发布大量新品 包括两款折叠屏手机!「三星或将发售折叠屏新机」
【手机中国新闻】三星官方此前已经宣布,它们即将在7月26日晚上19点,在韩国首尔举办Galaxy Unpacked发布会。从官方已经公布的信息来看,这次发布会将会有一大波的新品问世,其中包...
日期:07-27
业界!华为完成5G Redcap关键技术验证 让5G基站便宜如4G「华为完成全球首个5G高低频CA验证」
9月23日,中国信息通信研究院MTNet实验室,IMT-2020(5G)推进组完成全球首个5G R17 RedCap基站与芯片关键技术测试。据了解,该测试采用华为商用基站和国内知名厂家商用芯片,遵循IMT-2...
日期:10-04
人民日报评论:“薅羊毛”违法?危及个人信息安全需谨慎「薅羊毛侵犯公民信息」
  文 | ;徐之    用优惠券漏洞诈骗,获刑;利用平台漏洞薅羊毛,获刑;钻平台漏洞薅羊毛,被刑拘……近来,有关“薅羊毛获刑”的新闻屡受关注,让“职业羊毛党”进入公众视野。由此...
日期:10-02
坚果投影仪G7与G7S区别_坚果G7PRO值得买吗?和当贝投影D1比谁是家用投影仪性价比之王?
  随着移动互联网的迅猛发展,设备智能化的趋势已经越来越普遍了,出现了智能手机、智能电视等产品,投影仪也不可避免的出现了搭载智能操作系统的智能投影仪,短短几年时间...
日期:05-02
加速供应链转移?惠普回应笔记本生产迁出中国:依旧坚定致力于在重庆生产
快科技7月18日消息,近日有报道称,惠普今年正与供应商合作,将数百万台消费和商用笔记本电脑的生产转移到泰国和墨西哥。对此,惠普对此回应称,中国是其全球供应链中非常重要的组成...
日期:07-19
喜大普奔!微软商店开始支持Windows 10时间线
9月29日消息 微软已在最新的更新中为Microsoft Store添加了对Windows 10时间线的支持。这意味着你搜......
日期:09-29
采访周鸿祎进入360的那个主持人「360 CEO 周鸿祎考上清华博士,笑称“要用 360 AI大模型毕业”!」
360公司创始人、董事长兼CEO周鸿祎在个人微博上晒出了清华大学研究生录取通知书,称“终于考上了,希望360智脑帮助我顺利毕业”。周鸿祎被清华大学计算机科学与技术系电子信息...
日期:06-28
不会用GPT要被淘汰!周鸿祎宣布上线360AI商店:集成全球AI工具「360 周鸿祎」
快科技5月15日消息,日前,360集团创始人周鸿祎在央视《对话》节目中,宣布360AI商店上线。作为AI导航,360AI商店将集成全球AI工具,普通用户使用AI工具更加方便。简单来说,360AI商店...
日期:05-15
租葛亮B轮融资_B轮融资近亿元 租葛亮如何获得资本青睐?
  近日,中小企业IT服务商租葛亮宣布其获得由领沨资本领投,晨壹基金等跟投的近亿元人民币B轮融资。此次融资将主要用于市场扩张,服务团队建设,以及人才招募储备等环节。   ...
日期:12-18
《2012》被美宇航局评为“最烂”科幻电影_美国宇航灾难
  据香港《文汇报》3日报道,灾难巨片《2012》创造票房佳绩,故事讲述2012年世界末日,电影情节似有根有据,灾难特技逼真,在2009年上演时,令不少观众都相信末日将至,美国宇航局(NAS...
日期:07-25
论异见的表达:多少罪恶假自由之名
  7月3日,2019百度AI开发者大会在北京国家会议中心举行。本是开发者们的技术盛宴,然而却发生了一个令全场震惊的意外。在百度公司创始人、董事长兼CEO李彦宏演讲时,一位不明...
日期:09-18
涂鸦智能深耕“全屋智能”,拥抱行业生态新未来
“在不远的未来,没有智能家居系统的住宅会像不能上网的住宅一样不合潮流。”比尔﹒盖茨......
日期:09-28
周鸿祎直播演示360智脑高考作文 冯仑:及格 但不打动人「360总裁周鸿祎讲座」
6月8日消息,昨晚,360集团创始人周鸿祎和御风集团董事长、万通集团创始人冯仑展开了一场直播对话。对话中,周鸿祎演示了自家360智脑写作“人·技术·时间”为主题的高考作文,冯仑...
日期:06-08
张颂文的成长史,蕴藏了IP走红的密码_张颂文早期作品
声明:本文来自于微信公众号 那个吴小明(ID:haorank123),作者:那个吴小明,授权转载发布。毫无疑问,在《狂飙》之前,张颂文就是一个实力派。所谓实力派,就是演艺精湛的意思,毕业于北京...
日期:02-25
爽就要吼出来——语音微博Symbian版开启你的激情生活
  当iOS和Android用户拿着手机乐享说的愉悦时,Symbian用户可是各种羡慕嫉妒恨。此时,语音微博Symbian版终于发布,为更多智能手机用户带来能听能说的微博。此次发布的语音微...
日期:07-24
百度框计算:每年1.5万合作伙伴受益
  9月2日,百度世界大会“拥抱开放,创新应用”开发者分论坛得到众多关注。百度副总裁王梦秋、百度产品架构师田晓萌等与到会嘉宾分享了百度开放平台的开放策略。目前百度“...
日期:07-22
抖音公布动态表情显示专利_抖音动态如何公开
  天眼查App显示,8月26日,抖音视界有限公司申请的“动态表情显示方法、装置、电子设备及计算机可读存储介质”专利公布。极客时间课程分享未来汽车有哪些高科技沛纳海手表特...
日期:09-09
网友吐槽没法直视!电影版《红楼梦》花絮曝光:这林黛玉美吗?
近日,由胡玫导演的电影版《红楼梦之金玉良缘》花絮曝光,边程饰演贾宝玉、张淼怡饰演林黛玉、黄佳容饰演薛宝钗、关晓彤饰演贾元春,人物主演悉数登场,也可以看到各角色的服道化。...
日期:06-16
日本短片5g的一天_不是6G?日本推“后5G”技术:一部蓝光高清电影2秒内收发完毕
  11月25日消息 据《日本经济新闻》报道,日本政府为推进“后5G”技术的开发,将设立总额为2200亿日元的基金(约合人民币142亿元),用于资助日本国内企业研发。   目前在5G...
日期:12-17