您的位置:首页 > 互联网

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队_国产模型厂商

发布时间:2023-09-18 20:48:57  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:唐璜 ,授权转载发布。

OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!

就在9月16日,国产大模型在权威推理评测集GSM8K中,首次达到了80%正确率,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

而且这家厂商在大模型榜单上刷新全球纪录,已经不是第一次了。

它背后的公司在风起云涌的大模型技术江湖中,也频频被提及,越来越受关注。

不卖关子,它正是天工大模型,由昆仑万维打造。

怎么做到的?具体来看。

国产成品模型

图源备注:图片由AI生成,图片授权服务商Midjourney

大模型推理能力Benchmark跻身前列

天工大模型这次一战成名的,是大模型数学推理能力评测基准,GSM8K。

GSM8K由OpenAI发布,是一个涵盖8500个小学水平高质量数学题的数据集,设计原则有四:

高质量、高多样性、中等难度和自然语言解决方案。

所以这家伙现在一般被用做测试各家大模型推理能力的Benchmark。

上个月,微软和中国科学院联合发布了一项关于WizardMath的研究结果,主要在GSM8K和另一个常见数学基准上测试了市面上主流开闭源大模型的性能。

闭源模型上,拿下最高分的是GPT-4,正确率92%;GPT-3.5的正确率为57.1%。

国内模型大神

开源模型这边,不同参数规模的LLaMA-2最高正确率56.8%,最高分则被微软的WizardMath-70B拿走,正确率81.6%。

那么,天工大模型的成绩怎么样?

正确率80%。

这个成绩,比目前最强数学垂域开源模型的WizardMath-70B低了1.6%,与ChatGPT、540B参数的PaLM-2几乎持平。

并且大幅超过GPT-3.5和各个规模的LLaMA2。

同时在小米公开的中文数学测试集Cmath上,天工大模型平均准确率为76.8%(ChatGPT74.8%)。

为了做个验证,按照惯例,天工大模型和GPT-3.5面临了来自GSM8K测试集的英文同题考验。

Round one

问:每天,Wendi给每只鸡喂三杯混合鸡饲料,其中包括种子、黄粉虫和蔬菜,以帮助它们保持健康。她分三餐给鸡喂食。上午,她给鸡群喂15杯饲料。下午,她再给鸡喂25杯饲料。

如果Wendi有20只鸡,那么一天的最后一餐,她需要给鸡喂多少杯饲料?

天工大模型答,一天的最后一餐中要喂20杯饲料,才能确保鸡崽子们一天都吃饱。

GPT-3.5答,Wendi需要在一天的最后一餐中给鸡崽子们喂21杯饲料。

OK,这一局,GPT-3.5输了。

Round two

问:道费尔姐妹带着从动物收容所领养的7只小猫开车回家时,妈妈打来电话,告诉她们家里的两只猫刚生了小猫。妈妈说,Patchy猫猫生了三倍于被领养数量的小猫,而另一只Trixie猫猫生了12只。

现在道费尔一家一共有多少只小猫?

天工大模型答,当然是有40只小猫啦~

GPT-3.5答,道费尔一家现在共有33只小猫。

看来第二局还是天工大模型赢了。

Round3

团购行业分析

问:巨龙高坐在法尔博山上,向1000英尺范围内的任何东西疯狂喷火。波莉可以将压制巨龙的武器投掷400英里,但当她拿着蓝宝石时,能比不拿宝石时把标枪扔得远三倍。

如果拿着宝石,波莉能站在龙焰射程之外多远的地方,用金标枪击中龙?

天工大模型给出的解题思路如下,并且生成答案为200英尺。

GPT-3.5给出的解题思路也摆在这,最后答案也是200英尺。

这次二位打成了平局。

但是可以看到,相比GPT-3.5,天工大模型的解题思路更简单直接,解题步骤也更少更短。

一般来说,目前主流大模型们最近不太流行公开评测结果,但昆仑万维放话了:

虽然现在还是内测阶段,但天工大模型这次不仅对外公布了评测结果,还宣布后续会部署上线基座,供用户体验。

更重要的是,天工大模型允许研究人员、开发者申请API,对上述结果进行验证。

PS申请方法:

提供“姓名”“手机号”“所属机构/单位”,发送至官方邮箱neice@kunlun-inc.com进行申请。

若通过,三个工作日内将收到回复邮件,内含测试API及相关信息。

(截止时间为9月27日0点)

多个榜单跻身前列

除了GSM8K,另一个推理评测基准HumanEval,以及两个通识评测基准MMUL、C-Eval上,天工大模型也有出色表现。

△根据公开测试数据搜集整理

HumanEval同样出自OpenAI,是OpenAI为了评估Codex模型的有效性而创建的数据集。

通过这个数据集,研究人员可以对Codex模型进行评估,并了解其在代码生成方面的准确性和效果。

在这个数据集上,天工大模型成绩是37.2%。

MMLU是UC伯克利等打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目。

法国新能源汽车补贴政策

其主要目标,是对模型的英文跨学科专业能力进行深入测试。天工大模型的成绩是65%。

C-EVAL评测基准由上海交大、清华以及爱丁堡大学联合创建,是一个面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。

天工大模型的得分为65,超过了GPT-3.5的54.4的成绩。

成绩亮眼的天工大模型,发布在今年4月。

其AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。

4月发布,9月能取得酱紫的成绩,昆仑万维是怎么饲养天工大模型这匹黑马的?

先拿模型实力来说话。

这是一个双千亿大模型(指天工拥有千亿预训练基座模型和千亿RLHF模型。),目前版本最高支持1万字以上文本对话,实现20轮次以上用户交互。

二者的“强强联手”之下,天工大模型的优势便凸显了出来。

而模型层之外,为大模型积攒实力的无外乎算法、算力、数据三大件。

算法层方面,天工大模型也有自己的秘籍。

通常来说,市面上大模型们普遍采用Transformer架构。在此基础上,天工团队首次引入了蒙特卡洛搜索树算法(AlphaGo背后也是这算法)。

再说天工大模型背后的算力,基于中国最大的GPU集群之一。

强劲算力鼎力支持的,是天文数字版的数据量——按照借助“开源力量”的策略,天工从数十万亿的数据中,最终清洗、筛选出了近3万亿单词的数据。

intel13代cpu性能提升多大

现在,天工大模型在推理、通识多个榜单开花,可以想见因为背后算力、算法、数据扎实储备,天工大模型拥有的已经不是模型规模优势,技术创新和推理性能方面,也有了新突破。

国产大模型绕不过的狠角色

其实,推理能力大幅超过GPT-3.5和LLaMA2,已经不是昆仑万维携天工大模型第一次拿成绩炸场。

不久之前,天工大模型多模态团队的Skywork-MM用了大约50M的图文数据,以远小于其他大模型的数据量(>100M),登顶了多模态榜单。

△MME感知榜第一,认知榜第二,总榜第一

昆仑万维另一则引得众人瞩目的新闻,是AI大牛颜水成的加入。

他出任天工智能联席CEO、2050全球研究院院长,将在新加坡、伦敦、硅谷三地建立2050全球研究院的研究中心,并逐步开展几个领域的研究:

  • 下一代Foundation Model的基础研究和研发;

  • Agent的研发和智能体进化的研究;

  • 生物智能等前沿技术领域的探索。

颜水成道出加盟昆仑万维的原因:

在通用人工智能领域,从研究、研发到产品是完整的链条,缺一不可,只有将三者完全打通,研究才能发挥最大价值。

在国内,能将研究、研发、产品三线合一的平台少之又少,昆仑万维布局了AI大模型、AI动漫、AI社交、AI游戏、AI搜索和AI音乐六大方向,同时昆仑万维的核心业务面向全球市场,其能力矩阵和生态系统非常具有想象空间。

大模型潮流,浩浩荡荡。

今年以来国产大模型的发展势头迅猛,吸引越来越多的人才加入其中,由此助力各家大模型不断地迭代升级,涌现出更强大的能力,适配更广泛的应用场景。

昆仑万维在大模型的变革中,战略重视,动作频频,而且也有业务场景。

可以不夸张地说一句,昆仑万维和它家的天工大模型,已经是大模型江湖中,一个绕不过去的狠角色了。

—完—


返回网站首页

本文评论
2022国庆档电影看哪部?票房预售榜出炉_2020年国庆档电影票房
10月1日消息,猫眼专业版数据见证,9月30日20时56分,2022年国庆档(10月1日-10月7日)预售票房破5000万。电影《万里归途》票房占比最高。pico neo4vr一体机锐龙5950x酷睿i9 11900K对...
日期:10-05
哪吒销量2020「哪吒9月销量破1.8万台 100万内最好轿跑哪吒S订单超15万台」
10月1日,哪吒汽车公布9月交付数据,哪吒U+V”交付量18005台,同比增长134%;1-9月累计交付111190台,同比增长168%。其中,哪吒V车系交付11935台,同比增长138%,有望连续12个月获造车新势...
日期:10-04
股价暴跌后,泡泡玛特回应这些争议_泡玛特股票
查看最新行情   记者/马越   编辑/许悦   上市近2年的泡泡玛特迎来了股价上的“至暗时刻”—— 7月的连续多日下跌后,距离巅峰时期接近1500亿港元...
日期:07-31
oppo将于5月24日发布reno10系列_opporeno上市
oppo将于5月24日发布reno10系列,将包括三款机型:oppo reno10、oppo reno10pro和oppo reno10pro+。新款手机背面将采用椭圆形摄像头模块,并采用“亮金”颜色。reno10系列已经可...
日期:05-17
PC游戏厂商和Netflix来卷互动小说赛道了,美国玩家很买账
声明:本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:尾巴,授权转载发布。一直以来,互动小说品类的吸金能力大家都有目共睹,出海厂商中文在线旗下的互动小说产品《Chapters》...
日期:12-30
京东手机竞速排行榜出炉:iPhone霸榜 苹果成最大赢家_2021京东618竞速榜
京东手机竞速排行榜出炉:iPhone霸榜 苹果成最大赢家  【手机中国新闻】今年的618活动已经落幕,手机是其中的热门,谁家的产品更受欢迎从京东手机竞速排行榜可以看出一二。截止...
日期:06-20
职业“秒客”“秒客”使用外挂作弊器 成功多数靠作弊
  69元的机票、10元的品牌运动衫、1000元的笔记本电脑……这些远远低于市场价的“秒杀”商品令网购爱好者心动不已,不过,由于竞争激烈,普通网民很难成功“秒”到自己中意的...
日期:07-25
男子游泳被鲨鱼袭击幸有海豚相救 全身缝300多针保住性命:专家释疑
被鲨鱼咬了五口,要不是海豚相救,这位男子真的是要挂了。近日,美国国家地理播放了纪录片《鲨口逃生》。纪录片中描述了英国男子马丁理查德森在埃及红海游泳时遭到尖吻鲭鲨的攻击...
日期:07-04
2023 ChinaJoy AIGC大会:AIGC引领内容生产新世代
  时值 ChinaJoy 二十周年之际,在 AIGC 重新定义内容生产力、开启内容产业新世代的大背景之下。2023 年第二十届 ChinaJoy 将顺应时代发展趋势、聚焦社会热点话题,不仅是 7...
日期:06-14
街旁网称无组织架构变化 声明否认大规模裁员
  6月21日北京消息:街旁网就大规模裁员消息发表声明,称此消息不实,公司无裁员情况发生。   19日晚间,有消息人士爆料称国内LBS服务商街旁融资受阻,投资方有意更换现任CEO,并...
日期:07-30
碰瓷区块链!Sality病毒疯狂盗取虚拟币 感染超3万台电脑(区块链被盗)
  哪里有财富,哪里就有盯着财富的劫匪——这一铁律在区块链世界也一样。在国家加快推进区块链技术和产业创新发展的背景下,各种名头的虚拟货币交易再度活跃,不法黑客们也趁...
日期:05-24
快递公司开始复工!_物流公司什么时候复工
  (原标题:快递公司开始复工!申通、韵达、中通等宣布今日全面恢复正常运营)   企业推迟返工,加上部分地区交通管控,很多商品即便商家备好货,都在等待快递公司揽收,随着快递...
日期:04-17
钓鱼邮件电信诈骗属于哪种攻击方式「一封钓鱼电邮背后的AI攻防战」
声明:本文来自于微信公众号 科技新知(ID:kejixinzhi),作者丨樟稻编辑丨伊页,授权转载发布。生成式AI正在把跨境电商领域变成互联网里的“新缅北”。最近有不少卖家称收到伪装成亚...
日期:09-12
苹果手表Series7被曝过热后爆炸 苹果回应称将展开调查_苹果手表爆炸的原因
10月9日 消息:据9to5Mac报道,一位 Apple Watch Series7用户反映称自己的手表在出现过热、冒烟后最终炸裂。目前此事件已经引起苹果公司的注意,该公司确认将调查该事件。该用户...
日期:10-10
模型平台「OpenAI放大!将推出史上最强「模型商店」,打通所有ChatGPT应用」
新智元报道编辑:拉燕 好困【新智元导读】OpenAI深夜放大招,Sam Altman表示将打造史诗级LLM「应用商店」。打通所有ChatGPT应用,彻底抢占AI模型生态。OpenAI又双叒叕放大招了!简...
日期:06-22
iQOO骑士黑强势来袭,苏宁易购已开启预约16日开售
  据悉,“生而强悍”的iQOO手机,一直是网友口中讨论焦点,一经开售便广受消费者喜爱,引得消费哄抢,取得不错的市场反响。经过漫长的等待,发布上发布的打造专属尊贵身份的骑士黑1...
日期:07-01
李彦宏ai「李彦宏“移情”,集度失宠?」
华为难做到的事,百度同样力有不逮作者丨瀚星封面来源丨百度官网“不喜欢吹牛打广告”的余承东还在积极为问界站台,曾一心想实现百度造车梦的李彦宏却渐渐不再提起集度二字。自...
日期:07-17
女子手持棍棒怒砸机器人 网友:人类与机器人的仇恨从此开始「女机器人被打坏」
4月23日,江苏徐州。网曝徐州医科大学附属医院,一女子手持棍棒怒砸导医机器人。对此,该院保卫处一名工作人员称,初步判断女子精神上有问题,派出所正介入处理。视频中,女子一手持棒...
日期:04-24
全球最大盗版电子书网站Z-Library被封后复活:获赞助和美国监管机构对着干
去年11月,号称是全球最大电子图书馆的Z-Library被美国FBI封禁,连同下线的还有多达249个备用、影子、镜像、关联域名等。随后,美司法部称已经在阿根廷逮捕了Z-Library网站幕后的...
日期:03-30
大模型创企MiniMax接近完成新一轮融资 估值有望达到近12亿美元_模型创业
6月3日 消息:据路透社报道,有知情人士透露,专注于通用大型模型的中国人工智能创业公司 MiniMax 正接近完成一轮超过2.5亿美元的融资,其估值有望达到近12亿美元。该公司正在开发...
日期:06-03