您的位置:首页 > 互联网

一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型

发布时间:2023-08-28 10:29:11  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

这几天,代码大模型领域又热闹了起来!

先是 Meta 开源代码专用大模型Code Llama,且免费商用。效果也非常好,Code Llama 在 HumanEval 和 MBPP 代码数据集上的一次生成通过率(pass@1)轻松超越 GPT-3.5,其中「Unnatural」版本的 pass@1逼近了原始 GPT-4(OpenAI 在今年3月 GPT-4技术报告中的数据)。

Code Llama 发布仅一天,来自Phind组织的研究人员用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。他们的两个模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1在 HumanEval 分别实现67.6% 和69.5% 的 pass@1,显然都超越了原始 GPT-4的67%。

不过,仅仅又过了一天,Phind 微调版 Code Llama 又迎来了一个强劲的对手。这次是 WizardLM 团队的编程专用大模型 WizardCoder。

该团队推出了基于 Code Llama 的最新版本模型 WizardCoder34B,它利用 Evol-Instruct 进行微调而成。

结果显示,它在 HumanEval 上的 pass@1达到了惊人的73.2%,超越了原始 GPT-4、ChatGPT-3.5以及 Claude2、Bard。此外,WizardCoder13B 和7B 版本也将很快到来。

  • GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder

  • Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0

此次具体版本是 WizardCoder-Python-34B-V1.0,下图是与主流闭源和开源模型的 HumanEval pass@1比较。除了最新 API 的 GPT-4(该团队测试后得到的结果是82.0%),该模型超越了所有闭源和开源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。

因此,WizardCoder-Python-34B-V1.0成为了最新的 SOTA 开源代码大模型。

WizardLM 团队还表示,WizardCoder-Python-34B-V1.0的性能百分之百是可以复现的。

想要体验 WizardCoder-Python-34B-V1.0的小伙伴可以尝试以下 demo。

demo 地址:https://47.103.63.15:50085/

有人表示,在试了 demo 后发现,提供准确代码之前似乎有 COT(思维链)在起作用,这非常棒。

还有人表示,WizardCoder-Python-34B-V1.0要比 GPT-4犯的错更少。

不过运行 WizardCoder-Python-34B-V1.0需要32GB 以上的 mac。

WizardLM 团队会带来更多惊喜

WizardCoder 在成为代码家族一员已经不是新鲜事,但是 WizardLM 团队每次都会给大家带来不一样的惊喜。

斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。在这其中,WizardLM13B V1.2依旧在第六位。

WizardLM 是由 Can Xu 等人在2023年4月提出的一个能够根据复杂指令生成文本的大型语言模型。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据,从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本:7B、13B 和30B。

WizardLM 推出的指令微调代码大模型 ——WizardCoder,更是打破了闭源模型的垄断地位,在 HumanEval 和 HumanEval + 上优于 Anthropic 的 Claude 和 Google 的 Bard。

更值得一提的是,WizardCoder 还大幅度地提升了开源模型的 SOTA 水平,创造了惊人的进步,提高了22.3% 的性能,成为了开源领域的新晋「领头羊」。

以下为 WizardLM 团队在 GitHub 上发布的诸多模型,这些模型是该团队不断创新、改进的足迹。

WizardLM 团队在 WizardLM 与 WizardCoder 之后,还在今年八月中旬公布了 WizardMath。该团队还发推文表示,自己一直在致力于解决各个学科复杂的问题。

rating怎么点

那么未来 WizardLM 团队还会带给我们怎样的惊喜,让我们拭目以待。


返回网站首页

本文评论
一文汇总,苹果 iOS 16 首个正式版有哪些无法上线的功能?_ios14.7会出正式版吗
IT之家 9 月 11 日消息,苹果 iOS 16 正式版将于 9 月 13 日推送,支持 iPhone 8 及之后上市机型。虽然 iOS 16 已经测试了三个月左右,但首个正式版仍将有一些功能无法上线。实时...
日期:09-15
特斯拉拼了:其他品牌车辆置换特斯拉 3.2万元功能免费用90天_特斯拉老车主置换优惠政策
为了提升销量,特斯拉最近疯狂促销,今日宣布送出新年福利”,限时保险补贴4000元,限时交付激励6000元,还能限时申请优惠费率金融方案。电动重卡电池反复充电多少次iphone13promax 2...
日期:01-01
助推学习手机趋势品类发展 小度与京东签署战略合作协议「小度京东品牌是什么」
6 月 6 日,小度与京东就小度青禾学习手机签署战略合作协议。根据协议,双方将在优势互补、互惠互利、共同发展的基础上,进一步深化战略合作关系。围绕学习手机,小度和京东会携手...
日期:06-08
奥斯卡惊现预言帝 《盗梦空间》被网友再度加冕_盗梦空间为什么没得奥斯卡
  刚刚揭晓的第83届奥斯卡颁奖礼,《国王的演讲》成为最大的赢家,而备受中国观众青睐的《盗梦空间》和被广泛看好的《社交网络》却有些落魄。在百度贴吧,一边看奥斯卡直播一...
日期:07-26
2020年快递服务满意度调查「2023第二季度快递满意度出炉:第一不出意料」
7月28日,国家邮政局发布2023年第二季度快递服务满意度调查和时限准时率测试结果。顺丰品牌公众满意度和72小时准时率均以高分位列首位。Meta元宇宙据了解,2023年监测对象包括9...
日期:07-29
首次进军海外!小米13 Ultra将全球上市
今天下午,小米联合徕卡正式宣布,小米13 Ultra将于本月发布。按照小米一般的预热习惯,新机发布前大概是两周左右的预热时间,小米13 Ultra的发布日期可能是在下下周,也就是4月17日-...
日期:04-07
智云领航、5G商城3.0、5G消息自服务平台_5g智慧商城
  浙江移动加码数字化改革新动能   6月4日,中国移动浙江公司在杭州举行“助力高质量推进数字化改革行动大会”,宣布正式启动助力高质量推进数字化改革行动,发布助力数字化...
日期:06-25
京东开放平台公布2022年11.11预售活动规则「京东双11预售规则」
10 月 11 日消息, 2022 年京东开放平台11. 11 预售活动规则公布,本规则适用于2022 年京东11. 11 活动期间参与京东开放平台预售活动的商家。具体来看,预售活动时间: 2022 年 10...
日期:10-22
官方科普铁路新规:身高不再是儿童购票唯一标准
随着00后甚至10后生活条件的改善,火车、汽车等交通工具儿童票仅参照身高的标准已经逐渐缺乏适用性,年纪不大但因为身高只能买全票的情况时有发生。今年早些时候,国家交通部发布...
日期:12-21
淘特品牌折扣店「淘特上线两款智能新品“微店铺”和“心动搜索”_」
11月16日消息,淘特宣布上线两款智能产品:淘特“微店铺”和“心动搜索”。据介绍,淘特“微店铺”和“心动搜索”基于淘特搜索逻辑研发出的体验新功能,通过商业创新和交互创新,提升...
日期:11-27
手机用上水冷散热!一加发布45W液冷散热器:469元起「一加7pro液冷散热」
快科技4月17日消息,今天,一加召开发布会,正式推出了一加Ace2原神定制礼盒。与此同时,在发布会上,一加还带来了首款为手机设计的液冷散热器:一加45W液冷散热器。京东618手机单品销...
日期:04-18
一张图看懂 | 2022年全球100个最有价值品牌_2020全球最具价值品牌
10月28日 消息:确定品牌的财务价值不是一件简单的事情。尽管一个品牌是无形的,但一个强大的品牌在提升公司盈利方面起着重要的作用。考虑到这一点, Brand Finance在其年度全球...
日期:11-02
支付宝“安全守护”上线:有诈骗风险会通知守护人_支付宝安全保护
  信息时代科技飞速发展,人们很多生活习惯也在悄悄发生变化。支付宝就是其中最突出的一个例子。如今,大家衣食住行都离不开支付宝。究其缘由,不仅因为支付宝的普及给人们带...
日期:04-12
外卖员被打赏1.1元以为求救秒报警 女子曾眨眼暗示:结果尴尬_外卖小哥打赏
10月28日,安徽六安陆女士是一位宝妈,中午的时候她点了外卖,在把孩子哄睡着之后,她去门口领了外卖。小米电视开不开机怎么回事儿由于害怕把孩子吵醒,陆女士眨眼掉头暗示会给外卖小...
日期:10-30
百度网盘赠送好友会员_百度网盘:向湖北省所有用户免费赠送网盘超级会员
  2月5日消息 今日下午,百度网盘宣布,向湖北省所有用户免费赠送网盘超级会员。   百度网盘表示,为保证大家平安健康度过抗疫时期,工作学习不掉队,今日起,向湖北省所有用户免...
日期:05-16
雅迪发布「中国智造于央视荣耀登场!雅迪重塑全球中短途出行赛道」
   6 月 13 日,雅迪在央视总部举行了以“科技,成就美好出行”为主题的雅迪科技峰会暨雅迪冠能探索E10 荣耀上市发布会。雅迪不仅成为行业首个将发布会开进央视总台的品牌,更...
日期:06-20
石家庄买电脑「石家庄买电脑去哪」
石家庄是河北省的省会,也是一个比较大的城市,其购买电脑的需求自然也比较大。在现代社会中,电脑已经成为了我们不可或缺的工具,无论是生活、学习还是工作,用一台电脑都能事半功倍...
日期:05-29
Netflix将拍剧版三体「腾讯和 Netflix 的《三体》 我谁都不看好」
  来源:爱范儿  难点在叙事视角  三体迷们,只要你愿意,全世界的屏幕都可以为你闪烁 —— Netflix 版《三体》第一季先行中文特辑正式放送!  据悉,Netflix 版《三体》由《...
日期:09-30
你和大厂UI设计师的差距,主要都在作品集!(不一样的ui设计师)
  都说金九银十,在新一轮的招聘旺季来临前,你做好了UI作品集吗?一个好的作品集能为你的面试加分不少!在动手之前,先分享五款适合做交互设计作品集的软件:   一、「Pixso」...
日期:07-17
欧盟批准微软收购「欧盟对微软捆绑 Teams 展开反垄断调查,或面临巨额罚款」
7月28日 消息:据报道,欧盟监管机构已经开始对微软将视频和聊天应用 Teams 与其他 Office 应用捆绑的行为展开反垄断调查。欧盟委员会担心这种捆绑行为可能构成垄断,并限制了其...
日期:07-28