您的位置:首页 > 互联网

tcg排行榜「半年多过去了,ChatGPT的排名快“垫底”了」

发布时间:2023-09-08 10:29:42  来源:互联网     背景:

声明:本文来自于微信公众号 三言Pro(微信号:sycaijing),作者:嘴遁,授权转载发布。

今天,笔者无意中刷到一张图片。

据该图片显示,OpenAI的GPT-4在11个大模型中(第一名序号为0),已经排到了最后。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样。

这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念。

这才半年多,GPT就已经“垫底”了?

于是,笔者想看看GPT排名到底咋样了。

测试时间不同

测试团队不同

GPT-4排第十一

从前文中图片上显示的信息来看,这个排名是出自C-Eval榜单。

C-Eval榜单,全称C-Eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。

于是笔者查看了最新的C-Eval榜单。

C-Eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4排最后。

据C-Eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好。

C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。

C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得。

此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。

GPT-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的Galaxy提交时间为8月23日;排第三的YaYi提交时间为9月4日。

并且,排名前16的这些大模型,只有GPT-4的名字加了“*”,是由C-Eval团队测试的。

网易云音乐怎么设置黑胶唱片

于是笔者又查看了完整的C-Eval榜单。

最新的C-Eval榜单一共收录了66个大模型的排名。

top chat

其中,名字带“*”,也就是由C-Eval团队测试的,只有11个,且提交测试的时间均为5月15日。

这些由C-Eval团队测试的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清华智谱AI的ChatGLM-6B排在第六十,复旦的MOSS排在了第六十四。

虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱。

这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?

华为nova 3上市价格

大模型开发者怎么说?

多家表示在中文等能力上超过ChatGPT

最近,大模型的圈子相当热闹。

又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。

那这些大模型的开发者又都是怎么介绍自家产品的呢?

7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏表示,复旦对话式大型语言模型MOSS在今年2月发布后,还在连续不停地迭代,“最新的MOSS已经能够在中文能力上超过ChatGPT。”

7月底,网易有道上线翻译大模型,网易有道CEO周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越ChatGPT的翻译能力,也超过了谷歌翻译的水准。

8月下旬,在2023年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,“讯飞星火大模型的代码生成和补齐能力已经超过了ChatGPT,其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力。”

商汤近期的新闻稿中称,今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。在全球51个知名评测集共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。

据商汤介绍,internlm-123在主要评测中,有12项成绩排名第一。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列第一;知识问答commonsenseqa的评测分数为88.5,排名第一;internlm-123b在阅读理解的五项评测中成绩全部居榜首。

此外,在推理的五项评测中成绩排名第一。

本月初,作业帮正式发布自研银河大模型。

作业帮表示,银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型以平均分73.7分位居C-Eval榜首;同时在CMMLU榜单Five-shot和Zero-shot测评中分别以平均分74.03分及73.85分位列第一,成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。

昨天,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本。

百川智能创始人、CEO王小川称,经过微调之后的Chat模型,在中文领域,在Q&A问答环境,或者摘要环境里面,评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型。

tcg排行榜

thinkpad x1 2022评测

今天,在2023腾讯全球数字生态大会上,腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过GPT-3.5。

除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比。

8月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示,百度文心一言在三大维度20项指标中综合评分国内领先,较优于ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于GPT-4。

8月中旬,有媒体报道称,8月11日,小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前,MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1,在CMMLU中文向大模型排名第1。

8月12日,天津大学发布《大模型评测报告》。报告显示,GPT-4和百度文心一言相较于其他模型综合性能显著领先,两者得分相差不大,处于同一水平。文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距。

8月下旬,有媒体报道称,快手自研的大语言模型“快意”(KwaiYii)已开启内测。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的第一名,在人文学科、中国特定主题等方面较强,平均分超61分。

通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具体的领域表现优异。

另外,有一些综合评分超过了GPT-3.5或GPT-4,但GPT的测试是停留在5月的,谁能保证这近3个月的时间里,GPT没有进步呢?

OpenAI的处境

根据瑞银集团2月的一份报告显示,在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。

但ChatGPT的发展也不是那么顺利。

今年7月,有不少GPT-4用户吐槽,与之前的推理能力相比,GPT-4的性能有所下降。

有些用户在推特以及OpenAI在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等。

8月,又有一份报告称,OpenAi可能处于潜在的财务危机中,可能于2024年底破产。

报告中表示,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。目前,该公司正试图通过GPT-3.5和GPT-4实现盈利,但是还尚未产生足够的收入实现收支平衡。

不过,OpenAI或许也有新的转机。

日前,OpenAI宣布,将于11月举办首届开发者大会。

虽然OpenAI表示不会发布GPT-5,但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起,提前一览“新的工具”,并且交流想法。

这可能意味着,ChatGPT已经取得了新的进步。

另据澎湃新闻报道,8月30日,一位知情人士透露,通过销售AI软件和驱动其运行的计算能力,OpenAI预计将在未来12个月内实现超过10亿美元的收入。

今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人。

和摩根士丹利的银行家打交道的人,非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对OpenAI来说,也许会是一个巨大的收获。

人工智能时代的到来,已经势不可挡。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT。


返回网站首页

本文评论
花点时间不断优化鲜花供应链 确保花材高品质
  对于任何一个企业而言,优化供应链体系能够以最低的成本获取到最大的经济效益,同时还可为用户提供更好的体验,新消费鲜花生活方式品牌花点时间深谙此理。自2015年品牌成立...
日期:07-17
米哈游新作《原神》「米哈游《原神》IP营销动作频频,上线两周年后“钱”景几何」
  蓝鲸TMT 印婧 图片来源:东方IC   近日,米哈游《原神》官宣与动画制作公司ufotable(飞碟社)进行长期合作,与该公司共同制作的《原神》动画项目正式开启。  同时,这一游戏近...
日期:10-01
张同学公司申请“张同学本学”商标
企查查APP显示,近日,辽宁省张同学农业发展有限公司申请注册一枚“张同学本学”商标,国际分类为食品,目前商标状态为注册申请中。2022年一季度折叠屏手机出货量据悉,张同学真名为...
日期:09-28
amd暴打英特尔图「AMD英特尔松了一口气 PC最黑暗的日子过去了」
快科技6月15日消息,去年下半年全球PC市场三年的繁荣嘎然而止,寻求迅速下滑,并延续到了现在,今年Q1季度创下了10多年来最惨下滑,AMD及英特尔的日子也不好过。好消息是,今年Q1季度应...
日期:06-16
爱奇艺2020q2财报「爱奇艺将于5月16日发布2023年第一季度财报」
  讯 北京时间5月5日午间消息,爱奇艺(Nasdaq:IQ)宣布,将于美国东部时间2023年5月16日美国股市开盘前(北京时间5月16日晚)发布截至3月31日的2023年第一季度财报。  财报发布后...
日期:05-05
董明珠:格力空调10年免费包修 对手不敢这么做
快科技6月9日消息,近日董明珠频频接受采访,最新的对话中谈到了老本行的空调。董明珠提到了空调行业的竞争,她表示,对手分很多种,一种是正常的对手,比如不同品牌想做大,可能会采取一...
日期:06-09
两部委发布举办第八届“创客中国”中小企业创新创业大赛的通知
通信世界网消息(CWW)近日,工业和信息化部和财政部联合发布关于举办第八届“创客中国”中小企业创新创业大赛的通知(以下简称“通知”)。通知指出,本次大赛目的是激发创新潜力,集聚...
日期:07-18
推特用户减少「推特2年内将流失5%用户  预计超过3200万人」
12月14日 消息:据国外媒体报道,市场研究公司Insider Intelligence表示,马斯克先生对推特的诸多改变将导致推特的全球月活跃用户在2023年下降至近4%,总计超过3200万人;广告收入...
日期:12-14
盒马侯毅简历「盒马CEO侯毅:预制菜发展不可逆,好吃才是王道」
5月9日,盒马发起预制菜生态联盟,首批13家企业和上海海洋大学、西北农林科技大学、武汉商学院3家高校,以及老板电器加入联盟。盒马CEO侯毅表示,“预制菜,好吃才是王道。”他认为,预...
日期:05-09
阿里云语言AI,连续四年市占率第一「阿里云智能语言服务专家」
通信世界网消息(CWW)日前,国际数据公司(IDC)发布2022年中国AI公有云服务市场份额报告,阿里云语言AI市场份额连续四年排名第一,领跑中国市场。语言AI服务由对话式AI、智能语音、自然...
日期:08-02
全国18省份有扬沙浮尘天气 是今年第8次沙尘天气「中国扬沙天气沙的来源」
根据中央气象台6时发布的沙尘暴蓝色预警,受强冷空气影响,预计11日8时至12日8时,新疆南部、内蒙古大部、甘肃东部、宁夏、陕西中北部、山西、河北、北京、天津、山东、河南、安...
日期:04-11
7000万刘畊宏女孩,在淘宝直播买“周杰伦”
声明:本文来自于微信公众号电商在线(ID:dianshangmj),作者:王崭,授权转载发布。进入刘畊宏的直播间,总是蹦蹦跳跳、碎碎念,一旁的太太vivi偶尔动作划水、瘫坐在地、生无可恋。年近...
日期:11-02
五星连珠天象图片「春节期间迎来精彩天象:五星连珠将上演」
五星连珠是一种很受关注的天文现象,这次的天文现象出现在我们的春节期间,也能给节日平添一丝趣味。1月17日消息,据央视网新闻频道报道,春节期间,我们能在天上观测到五大行星中的...
日期:01-18
诺辉健康:幽幽管总销量破620万盒,一二线城市中青年用户占比超70%
6月19日消息,诺辉健康(6606.HK)今日宣布2023年618全平台战报,截至2023年6月18日24点,旗下幽门螺杆菌检测产品幽幽管累计总销售量突破620万盒。iqoo neo7 搭载天玑9000 芯片“诺辉...
日期:06-19
换流站无线物联网络为新型电力系统铺设“数字之路”_什么叫换流站
通信世界网消息(CWW)在“双碳”目标的驱动下,我国电网也正在从“源随荷动”的传统电力系统向“源网荷储”四维互动的新型电力系统加速演进。面对电力数字化的发展刚需,国内各大...
日期:08-14
美团公开新专利:指纹解锁共享单车(美团共享单车解锁破解)
  1 月 12 日消息,近日,美团关联公司北京三快在线科技有限公司公开“车辆解锁方法、装置、共享车辆及存储介质”专利,公开号 CN113920618A。   企查查专利摘要显示,该专利...
日期:07-17
疫情“倒逼”办公移动化 PKS+蓝信解决安全新挑战
  “一手抓抗疫,一手抓经济”,移动办公成为众多企业抗击疫情、复工复产的唯一选择。在当前的非常时期下,移动办公为稳定社会经济发挥了重要作用,同时也带来全新的安全挑战:传...
日期:08-02
一加lcd屏手机「显示效果绝了!一加Ace 2 Pro首发京东方Q9  OLED屏」
一加Ace 2 Pro在发布会上宣布,将首发搭载京东方全新的Q9 旗舰屏。这款屏幕在原有出色能力的基础上,在色偏、暗光下的灰阶、暗光显示优化、拖影以及低亮度灰阶均匀性等方面都有...
日期:08-17
华为Mate 50 Pro即将上线新功能:支持戴口罩解锁_mate20戴口罩解锁
中关村在线消息:华为Mate 50系列新机已经发售多日,凭借卫星通信、可变物理光圈、应急模式、昆仑玻璃等诸多黑科技,该机热度一直很高。(图源酷安网友)而就在近日,有酷安用户爆料称,...
日期:10-07
优视掌门人俞永福怒列腾讯四大罪状
中广网北京11月5日消息 据经济之声《天下公司》报道,对于很多网民来说,在短短不到二十年的互联网江湖中,去年那场“3Q大战”是一道抹不开的记忆。当时,互联网新锐奇虎360公司与...
日期:07-24