您的位置:首页 > 互联网

国产黑马与GPT-4o称霸中文榜首!Yi-Large勇夺国内LLM盲测桂冠,冲进世界第七

发布时间:2024-05-21 20:00:24  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】真正与GPT-4o齐头并进的国产大模型来了!刚刚,LMSYS揭开最新榜单,黑马Yi-Large在中文分榜上与GPT-4o并列第一,而在总榜上位列世界第七,紧追国际第一阵营,并登上了国内大模型盲测榜首。

几周前,一个名为im-also-a-good-gpt2-chatbot的神秘模型突然现身大模型竞技场Chatbot Arena,排名直接超过GPT-4-Turbo、Gemini1.5Pro、Claude3Opus、Llama3-70B等各家国际大厂的当家基座模型。

随后OpenAI揭开了im-also-a-good-gpt2-chatbot神秘面纱——正是GPT-4o的测试版本。

OpenAI CEO Sam Altman也在GPT-4o发布后亲自转帖引用LMSYS Arena盲测擂台的测试结果。

图片

由开放研究组织LMSYS Org(Large Model Systems Organization)发布的Chatbot Arena已经成为OpenAI、Anthropic、Google、Meta等国际大厂龙争虎斗的当红擂台,以最开放与科学的评测方法,在大模型进入第二年之际开放群众投票。

时隔一周,在最新更新的排名中,类im-also-a-good-gpt2-chatbot的黑马故事再次上。

这次排名飞速上涨的模型正是由中国大模型公司零一万物提交的Yi-Large千亿参数闭源大模型。

在LMSYS竞技场最新排名中,零一万物的最新千亿参数模型Yi-Large总榜排名世界模型第7,中国大模型中第一,已经超过Llama3-70B、Claude3Sonnet;其中文分榜更是与GPT-4o并列世界第一。

零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。

在总榜上,GPT系列占了前10的4个,以机构排序,零一万物01.AI仅次于OpenAI、Google、Anthropic之后,以开放金标准正式进击国际顶级大模型企业阵营。

美国时间2024年5月20日刚刷新的LMSYS Chatboat Arena盲测结果,来自至今积累超过1170万的全球用户真实投票数:

图片

值得一提的是,为了提高Chatbot Arena查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。

这个新机制旨在消除过度冗余的用户提示,如过度重复的你好。这类冗余提示可能会影响排行榜的准确性。

LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中,Yi-Large的Elo得分更进一步,与Claude3Opus、GPT-4-0125-preview并列第四。

图片

LMSYS中文榜:GPT-4o和Yi-Large并列第一

值得国人关注的是,国内大模型厂商中,智谱GLM-4、阿里Qwen Max、Qwen1.5、零一万物Yi-Large、Yi-34B-chat此次都有参与盲测。

在总榜之外,LMSYS的语言类别上也新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。

其中,Yi-Large在中文语言分榜上拔得头筹,与OpenAI刚刚官宣一周的地表最强GPT-4o并列第一,Qwen-Max和GLM-4在中文榜上也都表现不凡。

图片

最烧脑公开评测:Yi-Large位居全球第二

在分类别的排行榜中,Yi-Large同样表现亮眼。

编程能力、长提问及最新推出的艰难提示词的三个评测是LMSYS所给出的针对性榜单,以专业性与高难度著称,可称作大模型最烧脑的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic 当家旗舰模型 Claude3Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。

图片

保养后油耗突然增高什么原因导致

长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude3Opus并列。

图片

艰难提示词(Hard Prompts)则是LMSYS为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自Arena的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。

LMSYS认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。

在这一榜单上,Yi-Large处理艰难提示的能力也得到印证,与GPT-4-Turbo、GPT-4、Claude3Opus并列第二。

图片

LMSYS Chatbot Arena:后benchmark时代的风向标

如何为大模型给出客观公正的评测一直是业内广泛关注的话题。

为了在固定题库中取得一份亮眼的评测分数,业内出现了各式各样的刷榜方法:将各种各样的评测基准训练集直接混入模型训练集中、用未对齐的模型跟已经对齐的模型做对比等等,对尝试了解大模型真实能力的人,的确呈现众说纷纭的现场,更让大模型的投资人摸不着北。

在经过2023年一系列错综复杂、乱象丛生的大模型评测浪潮之后,业界对于评测集的专业性和客观性给予了更高的重视。

而LMSYS Org发布的Chatbot Arena凭借其新颖的竞技场形式、测试团队的严谨性,成为目前全球业界公认的基准标杆,连OpenAI在GPT-4o正式发布前,都在LMSYS上匿名预发布和预测试。

在海外大厂高管中,不只Sam Altman,Google DeepMind首席科学家Jeff Dean也曾引用LMSYS Chatbot Arena的排名数据,来佐证Bard产品的性能。

图片

OpenAI创始团队成员Andrej Karpathy甚至公开表示,Chatbot Arena isawesome。

李彦宏他的声音

图片

自身的旗舰模型发布后第一时间提交给LMSYS,这一行为本身就展现了海外头部大厂对于Chatbot Arena的极大尊重。

这份尊重既来自于LMSYS作为研究组织的权威背书,也来自于其新颖的排名机制。

公开资料显示,LMSYS Org是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

虽然主要人员出自高校,但LMSYS的研究项目却十分贴近产业,他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上live大模型打擂台测试所需的算力。

在形式上,Chatbot Arena借鉴了搜索引擎时代的横向对比评测思路。

它首先将所有上传评测的参赛模型随机两两配对,以匿名模型的形式呈现在用户面前。

随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价。

在盲测平台上,大模型们两两相比,用户自主输入对大模型的提问,模型A、模型B两侧分别生成两PK模型的真实结果,用户在结果下方做出投票四选一:A模型较佳、B模型较佳,两者平手,或是两者都不好。

提交后,可进行下一轮PK。

图片

通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena一方面减少偏见的影响,另一方面也最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在经过清洗和匿名化处理后,Chatbot Arena还会公开所有用户投票数据。

得益于真实用户盲测投票这一机制,Chatbot Arena被称为大模型业内最有用户体感的奥林匹克。

在收集真实用户投票数据之后,LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。

Elo评分系统,是一项基于统计学原理的权威性评价体系,由匈牙利裔美国物理学家Arpad Elo博士创立,旨在量化和评估各类对弈活动的竞技水平。

作为当前国际公认的竞技水平评估标准,Elo等级分制度在国际象棋、围棋、足球、篮球、电子竞技等运动中都发挥着至关重要的作用。

更通俗地来讲,在Elo评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。

通过引入Elo评分系统,LMSYS Chatbot Arena在最大程度上保证了排名的客观公正。

图片

Chatbot Arena的评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面,这些因素共同作用,确保了评测的客观性、权威性和专业性。

毫无疑问,这样的评测方式能够更准确地反映出大模型在实际应用中的表现,为行业提供了一个可靠的参考标准。

Yi-Large以小搏大紧追国际第一阵营,登顶国内大模型盲测

此次Chatbot Arena共有44款模型参赛,既包含了顶尖开源模型Llama3-70B,也包含了各家大厂的闭源模型。

图片

以最新公布的Elo评分来看,GPT-4o以1287分高居榜首,GPT-4Turbo、Gemini1.5Pro、Claude3Opus、Yi-Large等模型则以1240左右的评分位居第二梯队;其后的Bard(Gemini Pro)、Llama3-70B Instruct、Claude3Sonnet的成绩则断崖式下滑至1200分左右。

值得一提的是,排名前6的模型分别归属于海外巨头OpenAI、Google、Anthropic,零一万物位列全球第四机构,且GPT-4、Gemini1.5Pro等模型均为万亿级别超大参数规模的旗舰模型,其他模型也都在大几千亿参数级别。

Yi-Large以小搏大以仅仅千亿参数量级紧追其后,5月13日一经发布便冲上世界排名第七大模型,与海外大厂的旗舰模型处于同一梯队。

在LMSYS Chatbot Arena截至5月21日的总榜上,阿里巴巴的Qwen-Max大模型Elo分数为1186,排名第12;智谱AI的GLM-4大模型Elo分数为1175,排名第15。

在当前大模型步入商业应用的浪潮中,模型的实际性能亟需通过具体应用场景的严格考验,以证明其真正的价值和潜力。过去那种仅要求表面光鲜的作秀式评测方式已不再具有实际意义。

为了促进整个大模型行业的健康发展,整个行业必须追求一种更为客观、公正且权威的评估体系。

在这样的背景下,一个如Chatbot Arena这样能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系的评测平台,显得尤为重要。它不仅能够为模型提供公正的评估,还能够通过大规模的用户参与,确保评测结果的真实性和权威性。

无论是出于自身模型能力迭代的考虑,还是立足于长期口碑的视角,大模型厂商应当积极参与到像Chatbot Arena这样的权威评测平台中,通过实际的用户反馈和专业的评测机制来证明其产品的竞争力。

这不仅有助于提升厂商自身的品牌形象和市场地位,也有助于推动整个行业的健康发展,促进技术创新和产品优化。相反,那些选择作秀式的评测方式,忽视真实应用效果的厂商,模型能力与市场需求之间的鸿沟会越发明显,最终将难以在激烈的市场竞争中立足。

参考资料:

LMSYS Chatbot Arena盲测竞技场公开投票地址:

https://arena.lmsys.org/

LMSYS Chatbot Leaderboard评测排行(滚动更新):

https://chat.lmsys.org/?leaderboard


返回网站首页

本文评论
不怕电池损耗了!iPhone 15可设置充电上限为80% 显示循环次数_苹果ios15充电
快科技9月20日消息,昨晚iPhone 15系列的一大批评测内容已经解禁,根据部分博主的提前上手来看,iPhone 15还是有些小细节与老款不同。比如最新的电池健康管理,iPhone 15系列推出了...
日期:09-20
马斯克注销推特「马斯克将对推特全面裁员 已要求经理制定裁员名单」
凤凰网科技讯 北京时间10月30日消息,知情人士称,在完成了对推特的收购交易后,埃隆马斯克(Elon Musk)计划最快从当地时间周六开始对推特裁员,目前已经要求一些经理起草裁员名单。...
日期:10-30
百度程序猿:贴符祭天不如熬夜加班,力求春晚红包不宕机
小时候的电视经常断信号, 你像拍狗狗一样拍拍他的头, 就立马显灵,恢复信号。 后来,手机、电脑经常死机, 只要果断抠出电池再装回, 分分钟满血复活。 你问我为什么, 我只能说不知...
日期:04-28
看完这篇,终于知道怎么挑选商用投影仪了_商用投影仪和家用投影仪哪个好
想为自己的会议室或者工作室选购显示设备,在购物软件里搜索:商用投影仪,随之映入眼帘的是琳琅满目不同品牌的的投影选择,多价位、多功能,让人不免看花了眼,加上详情页里各种纷繁复...
日期:04-23
ISC 2023 邬江兴:以动态异构冗余(DHR)构造赋能AI应用系统内生安全「邬江兴 拟态防御」
   8 月 9 日,以“安全即服务,开启人工智能时代数字安全新范式”为主题的ISC2023 第十一届互联网安全大会开幕式在北京国家会议中心盛大开幕。中国工程院院士邬江兴出席并以...
日期:08-11
oppo find x7开售时间Find X7系列开售 京东手机小时达下单1小时送达新机 1月12日OPPO
来源:中关村在线1月12日,OPPOFind X7系列正式开售,售价3999元起。想在开售当天就入手新机,可以使用京东手机小时达,下单1小时收到OPPO Find X7系列新品,正品有保障,足不出户就能快...
日期:01-13
那些被“十万个为什么”逼疯的家长,终于有救了!(怼哭百万家长)
  之前在网上看到过这样一个段子。小向日葵问妈妈:我们是怎么熬过没有太阳的夜晚的呢?向日葵妈妈绞尽脑汁想了半天无奈的回答到:嗑瓜子呗。这听起来是一个让人“瑟瑟发抖”...
日期:10-22
河北怀来县城联通营业厅电话「中国联通(怀来)大数据创新产业园开启运营」
中国联通(怀来)大数据创新产业园开启运营 通信产业网|2023-07-13 08:56:11作者:通文来源:通信产业网【通信产业网讯】7月12日,中国联通以“践行国家东数西算使命 铸就央企算力调...
日期:07-13
搜狗ai录音笔怎么录音_搜狗AI录音笔 用科技与担当引领AI录音笔行业
  如今是智能硬件大爆发的时代,智能手机、智能音箱等热门的智能产品已被大众熟知,大众对智能产品的接受能力与需求度可谓年年攀升。而在本是垂直工具的录音笔行业,因为搜狗A...
日期:07-14
人类和AI谁能赢 阿里巴巴全球数学竞赛官宣启动!首次向AI开放_阿里巴巴全球数学竞赛什么水平
快科技3月14日消息,今天,阿里达摩院官方宣布,从今天起2024阿里巴巴全球数学竞赛开启报名,并且首次向AI开放参赛。阿里达摩院表示,目前AI已在自然语言、视频生成等方面展现出惊人...
日期:03-14
腾讯、爱奇艺回应《庆余年》遭盗版传播:公安机关已立案侦查中
  12月20日消息 近日互联网上有人未经权利人许可,擅自通过互联网非法销售、传播电视剧《庆余年》(第一季)盗版内容,大肆实施侵权盗版。对此,腾讯影业回应,已经向公安机关报案...
日期:09-07
第500次发射!西昌卫星发射中心见证中国航天新纪录_西昌卫星发射中心2021年发射任务
新华社西昌12月10日电(李国利、胡煦劼)12月10日9时58分,我国在西昌卫星发射中心使用长征二号丁运载火箭,成功将遥感三十九号卫星发射升空。这是长征系列运载火箭的第500次发射。...
日期:12-11
专注教育14年 希沃教学大模型实现课件自动声场、课堂智能反馈
“育人是教育的初心,育好人是教育的追求,其中最核心的是‘教什么’和‘怎么教’,希沃教学大模型目的是培养老师驾驭人工智能的能力,利用新技术更好地开展教学。”10 月 17 日,视...
日期:10-18
小米首款徕卡旗舰!12S Ultra喜提澎湃OS开发版_小米和徕卡合作
快科技12月9日消息,微博网友反馈,小米12S Ultra已经推送澎湃OS开发版系统,这是小米第一款徕卡旗舰,发布于2022年7月份。fold3使用感受该机首发索尼IMX989一英寸超级大底,小米创办...
日期:12-09
王宝强访谈节目「王宝强做客东方甄选!被俞敏洪问是否还相信爱情」
6月28日消息,王宝强做客抖音平台东方甄选直播间,在直播间里,俞敏洪问王宝强:经历了这么多,还相信爱情吗?王宝强说:我问心无愧,我活的是坦荡的,别人可以负我,我不能负别人。”redmi not...
日期:06-28
外卖员喝酒「成人崩溃就在一瞬间 外卖小哥酒后误上高速 电量跑光痛哭不止」
3月10日凌晨两点,河北石家庄西柏坡大队民警救助一名误上高速行人,及时处置消除路面安全隐患。小鹏P7智能驾驶原来,前两天该男子家里老人去世,但自己回不去,借酒消愁疏解心中烦闷,...
日期:03-15
连续4年共计24万 男子误把每月汇款当捐款:原是闹了个大乌龙
5月4日消息,浙江海宁的一位肖先生以为自己遇到了天上掉馅饼”的好事,据其讲述,自己的银行卡从2018年4月开始,每个月都会汇入一笔转账,而且均来自同一个陌生人。联想贾朝晖个人信...
日期:05-05
荣耀Play8T Pro入网工信部 机身重量仅166g_荣耀play58+128
近日,荣耀终端有限公司申报了一款型号为“LLY-AN00”的新机,并已通过工信部审核。据悉,这款机型将可能是荣耀 Play8T Pro。#荣耀 Play8T Pro# 根据博主 @完美编排数码 的透露,荣...
日期:10-11
电影开场后也能退票了!全国首批自助退票机上线:可退30分钟内的票
快科技1月11日消息,据CCTV6报道,全国首批自助退票机近日在长沙上线,2024跨年之际长沙部分影院开启电影退票机制,观影30分钟之内,观众可享有退票福利,无需人工干预,全程自助服务。据...
日期:01-12
特斯拉Model S和Model X在美售价整体上涨2500美元_特斯拉modelx美国售价 美元
4月21日消息,据外媒报道,在本周二下调了Model Y和Model3在美国的价格后,特斯拉继续调整其电动汽车在美国的定价,不过这一次是上调价格。特斯拉将Model S和Model X在美国的价格整...
日期:04-21