您的位置:首页 > 互联网

对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4

发布时间:2023-10-08 22:45:41  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

对标GPT-4代码解释器,港中大最新研究放了个“大招”:

他们开发了一个叫做MathCoder的大模型,数学能力直接在竞赛级“题库”Math上超过GPT-4。

做到这一点靠的就是无缝集成代码的能力——

在遇到数学问题时,它不仅能用自然语言推理,还能自动编写和执行代码来建模、推导公式与方程。

这样的工作方式无疑和强大的GPT-4代码解释器一样。

在实际评测中,MathCoder除了超过GPT-4,还顺利在MATH和GSM8K两大数据集上取得了开源LLM中的SOTA(打败了8月份才诞生的WizardMath)

这个“新王”究竟是如何诞生的?

对标GPT-4代码解释器

总的来看,港大这项研究为了提高大模型的数学推理能力,学习了GPT-4代码解释器的优点和工作原理,提出了一种微调开源语言模型的方法。

该方法最终使大模型无缝集成代码,利用代码来解决数学问题。

具体而言,他们首先提出了一个可以生成高质量数学题的数据集:MathCodeInstruct。

该数据集由两部分组成:

种子数据(D0):主要基于GSM8K和MATH,并利用GPT-4收集答案。

插值数据(D1):让GPT-4基于他们提出的一种叫做“问题插值提示”的方法生成。

如下图所示:

示例1和2分别来自于GSM8K和MATH,1简单,2难一些,GPT-4要做的“插值”就是生成比1难但比2更简单的新问题。

基于以上两类问题,最终MathCodeInstruct数据集一共收集了8万道数学题。

如下表所示,这比业内其他数据集规模稍小一些:

而与其他数据集相比,它的特点之一是同时弥补了GSM8K和MATH这两大重要数据集中不足的部分,给出了一些难度范围更广的问题,增强了数据集的泛化能力。

特点之二是数据集中的每道题目同时包含基于自然语言推理的部分+基于代码解决的部分(包括执行代码和代码输出结果)。

如下图所示,这是对上面GPT-4生成的“插值”问题的解决思路:

在数据集准备好以后,团队便提出了一种定制的监督微调和推理方法,最终在Llama-2和Code Llama上微调出了MathCoder。

具体而言,该方法使用特殊的token(<|text|>、<|code|>、<|execution|>)来识别训练数据集中哪一部分是自然语言、代码还是结果,让模型学习生成由这些特殊标记划分的自然语言和代码。

在推理期间,该方法还会将动态执行的结果附加到模型的先前预测中。

然后,继续基于这个新版本的输入自回归预测下一个token,以及最后的执行结果。

作者表示,通过这种方式,模型将能够“看到”执行结果,并不断地继续推理。

最终,该方法使微调模型MathCoder以类似GPT-4代码解释器的方式运行。

在评测中,MathCoder凭此直接在MATH和GSM8K这俩数据集上取得了45.2%和83.9%的好成绩。

该成绩证明:

其一,它超过了ChatGPT-3.5和PaLM-2等9个闭源模型,并在以数学竞赛题为主的MATH集上超过GPT-4。

其二,它打败了此前数学领域里最强的开源模型WizardMath,成为新的开源之最。

不过其三,模仿但还未超越,在这俩数据集上,MathCoder还是与GPT-4代码解释器(69.7%和97%高分)存在着一定的性能差距。

作者介绍

本研究一共10位作者,除了两位来自香港城市大学以外,其余均来自香港中文大学。

共同一作一共有6位,分别是:Ke Wang、Houxing Ren、Aojun Zhou、Zimu Lu、Sichun Luo和Weikang Shi。

通讯作者为李鸿升,为港中大电子工程系副教授,同时也就职于上海人工智能研究室。

论文地址:

https://arxiv.org/abs/2310.03731

小米11 ultra屏幕材质

—完—


返回网站首页

本文评论
小米定制小爱明日停运下线:米粉不舍晒形象留念_小米的小爱是什么时候上市的
7月9日 消息:小米小爱同学团队在7月9日发布了一则公告,宣布由于产品策略调整的原因,定制版小爱功能将在7月10日24:00的小爱语音V6.6版本停止运营。此举让许多小米粉丝感到遗憾...
日期:07-09
超级sim卡和sim卡「消息称多家上市公司已和国内运营商开展超级 SIM 卡业务合作」
通信世界网消息(CWW)7月12日,据第一财经报道,记者今日以投资身份致电多家 SIM 卡相关概念股,多家公司表示已和运营商开展超级 SIM 卡业务合作。其中,恒宝股份证券部表示,目前超级 S...
日期:07-13
MVNO十年优秀渠道——杭州畅达通讯科技有限公司_畅达集团
通信世界网消息(CWW)9月9日,云通信服务工业企业发展论坛在第二十三届中国国际投资贸易洽谈会期间成功举办。本次论坛邀请了监管部门、行业协会、研究机构以及25家MVNO代表、80...
日期:09-20
“‘医知桥’医学装备知识产权服务平台”2023年4月27日正式上线_医学知识库官网
医知桥医学装备知识产权服务平台(以下简称“医知桥”平台)致力于成为我国最专业、最权 威的医学装备知识产权创新转化全链条服务平台。目标是让医生轻松做科研,让成果顺利作转...
日期:05-05
美国苹果手机市场份额排名「iPhone 14 系列深受美国苹果用户追捧:占比 79%、仅次于 iPhone 7 系列」
IT之家 7 月 20 日消息,根据市场调查机构 CIRP 公布的最新报告,自苹果 2017 年推出 iPhone 7 以来,iPhone 14 系列在美国市场的份额占比最高。坚持写日记的好处比特币市值占比...
日期:07-20
亚信科技助力人保寿险CRM项目荣获“2022金融科技创新突出贡献奖”(亚信科技年会)
  日前,由《金融电子化》杂志社主办的“2020中国金融科技年会”揭晓了金融领域系列年度奖项,中国人民人寿保险股份有限公司(以下简称:人保寿险)以其推动自身转型的CRM客户关...
日期:07-10
抖音推出视频社交app多闪  红包视频增进亲密关系(多闪,好友小视频社交App)
  1月15日,抖音正式宣布升级私信功能,推出自己的独立视频社交产品多闪,正式进军社交领域。   当天,25岁的多闪产品负责人徐璐冉,详细介绍了这款定位于增进亲密关系的视...
日期:10-07
再次“沸腾”了!印度完成登月后,又发射了首个太阳探测器!「印度登月计划」
2023年,注定是印度航天探索的高光时刻,因为就在前不久完成登月后,日前印度又成功发射了首个太阳探测器,引发了印度的全民关注,14亿人口彻夜难眠。首先是8月23日,印度空间研究组织...
日期:09-06
12.4万买新帕纳梅拉!近600名国内网友保时捷官网疯抢:成功下单后被取消
12.4万买辆全新的帕纳梅拉,这不是赚翻了吗,600多个网友都去购买了。有博主发现,1月30日,银川保时捷中心上线了12.4万一辆的Panamera,首付低至3万,这样的白菜真的是不买白不买。该...
日期:01-31
VeryCD仓促转型入口网站 用户恐被瓜分_verycd创始人
  即将放假回外地过年的电子商务网站高管PEGGY正在追看时尚偶像剧《一不小心爱上你》,但就在她打算去经常逛的VeryCD网站一口气把这个片子打包下载,过年回家慢慢看时,却发现...
日期:07-26
年度第三!《消失的她》票房破35亿 中国票房前10守门员是40亿「消失的她攻略」
据灯塔专业版实时数据,截至7月30日21时36分,影片《消失的她》票房突破35亿。《消失的她》于6月22日上映,隶属于端午档,是截至目前2023年票房第三高的电影,仅次于春节档的《满江红...
日期:07-31
不必召回!苹果已为iPhone 12发布更新「苹果12.48更新了什么」
据界面新闻报道,比利时数字化国务秘书马蒂厄?米歇尔近日表示,已要求苹果公司在欧盟各国更新iPhone 12软件。米歇尔表示,根据比利时监管机构的初步审查,这款手机不会对用户造成危...
日期:09-16
扫描区块链大数据公司,这是个赚钱的生意吗?_区块链赚了几千万
在“区块链”和“大数据”概念的双重加持下,有越来越多的创业公司进入这条赛道,资本市场对此也较为看好...经过这几年的发展后,各个细分赛道都涌现出了头部的大数据公司,除了Coi...
日期:08-01
《黑镜6》崩了,剧本是AI写的吧?「《黑镜》s03e03」
声明:本文来自微信公众号“深燃”(ID:shenrancaijing),作者:王璐,编辑:李秋涵,授权转载发布。时隔四年后,《黑镜6》悄悄回来了,6月15日在奈飞上线全集。《黑镜》的地位曾经有多高?它...
日期:06-26
中国联通5g招标结果「中国联通启动402.39亿元5G设备集采,将花落谁家?」
通信世界网消息(CWW)8月4日,中国联通在采购与招标网发布《2023年中国联通5G网络设备集中采购项目资格预审公告》,显示中国联通将采购5G新建、改造、升级、扩容网络设备69万站(套)...
日期:08-06
智能AR眼镜红外测温方案_智能测温AR眼镜
  今天为大家介绍基于AR眼镜的红外测温方案。AR眼镜加装便携式红外测温摄像模块进行图像识别录入数据,语音输入录入数据,非接触、无纸化,提高数据录入速度,减少接触,提升安全...
日期:08-04
飞猪旗舰店双11期间上线多款酒店新品「飞猪酒店官方旗舰店」
10 月 28 日消息,双 11 期间,万豪、雅高、万达、洲际、凯悦等酒店集团相继在其飞猪官方旗舰店首发新品。同时,今年万达酒店及度假村有超过 20 款商品在飞猪双 11 售卖,其中北京...
日期:11-02
谷歌在欧盟九国遭投诉:广告竞价侵犯百姓隐私(欧盟谷歌案)
  [摘要]欧盟隐私活动人士就美国网络巨头谷歌处理在线广告数据的方式向法国、德国和其他7个欧盟国家政府的数据保护监管机构提出投诉,谷歌在欧洲面临的个人隐私问题将加剧...
日期:01-10
从无序扩张到稳健运营,紫光展锐新帅走马上任「紫光展锐实力如何?」
通信世界网消息(CWW)6月27日,紫光集团发布公告,委派集团执行副总裁马道杰先生担任紫光展锐董事长。原由紫光集团委任的紫光展锐董事吴胜武先生不再担任紫光展锐董事、董事长。众...
日期:06-28
第31届中国国际信息通信展览会圆满闭幕
通信世界网消息(CWW)2023年6月6日,由工业和信息化部主办、通用技术邮电器材承办,为期3天的“第31届中国国际信息通信展览会”(PT EXPO CHINA,以下简称PT展)在北京国家会议中心落下...
日期:06-07