您的位置:首页 > 互联网

国内模型大神「现在的大模型榜单,真就没一个可信的。」

发布时间:2024-09-10 15:52:18  来源:互联网     背景:

声明:本文来自于微信公众号 数字生命卡兹克),作者:数字生命卡兹克,授权转载发布。

现在的大模型榜单上,真的都是水分。

全是作弊的考生,真的。

上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。

就是Reflection70B。

在每项基准测试上都超过了 GPT-4o,还只用70B的参数,就击败了405B的Llama3.1,模型中还有一个叫Reflection-Tuning的技术,能让模型能够在最终回复之前,先识别自己有没有错误,如果有,纠正以后再回答。

其实这个东西当时我就很存疑,因为在我的理解里,这玩意,就是个CoT,就是个纯Prompt,一个Prompt把70B模型直接带的螺旋升天?

你这玩意,真要是能做到,奥特曼就真的直接原地给你磕头了。。。

最关键的是,还有一个很离谱的点,这个模型就两个人做,而且,从一拍即合、到找数据集、到模型微调完成并正式发布,一共就花了3周。

这效率,这速度,直接卷的螺旋升天,国内大厂速度没卷到这个地步...

于是我就观望了几天。

直到昨天,发现这模型底都快被人扒掉了。

模型结果造假,提供给开发者的API,还是造假。

乐视tv超级电视价格

先是跑分评测上面,这是他们老板Matt自己发出来的跑分结果,勇夺第一。

看这个结果,你就说屌不屌吧,拳打Claude3.5,脚踢GPT-4o,还把Gemini1.5Pro和Llama3.1405B给摁在地上摩擦。

你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。

直到7号,Artificial Analysis用他们自己的标准评测集跑了一通,发现这事不对啊,你这么多项评测集都登顶了,你应该很牛逼才对啊,这得分什么情况???

他们是这么说的:

乐视超级自行车评测

“哥们,我们测完了咋感觉你比Llama3.170B更拉了呢?老实说,你是不是在骗兄弟们。”

Matt看到了以后,开始说卧槽不对劲啊,我们内部是好的啊,怎么你们测试结果这么烂?

花了好半天,Matt终于说,哦是Hugging Face 权重出现了问题,我也不知道咋回事,你们等一等。

说完还不忘凡尔赛一下,说:

翻译一下就是:我们是在太太太太火啦,你们再等等啊,乖。

直到今天凌晨,最骚的事情来了,Matt说,我们终于解决了问题,开放了新的API。

他们提供了一个私有接口,说这个才是Reflection70B完全体。

大家一测,卧槽,果然牛逼,牛逼炸了。

真的好像比GPT4o还有那些大厂的模型强哎。

就差点直接给Reflection70B开香槟了。

2个人,3周时间,创了AI行业的奇迹。

但是大家香槟刚开一半,就被生生的摁回去了。

大家发现,这个所谓的“Reflection70B”的API,怎么跟Claude3.5回复的东西,一模一样。。。

于是有人,又做了一个验证测试,他把所有API的参数全部设为10个Token、0温度、top_k1,然后让大模型,重复entsprechend这个词20次,因为大模型对token的计算都不太一样,所以其实10个token限制输出的内容也不太一样,你既然说你是基于Llama3.1微调的,那你肯定得跟Llama3.1输出内容一样对吧。

华为OceanStor存储

但是,结果直接让人大跌眼镜。

好兄弟,你怎么,跟Claude的长度一样,你到底是Llama3.1生出的Reflection70B,还是披着狗皮的Claude啊???

更狗的是,他们居然,还把Claude设成了屏蔽词,在用户的对话中,一旦你发Claude,就直接剔除。

骚啊,实在是太骚了。。。

这下,所有AI行业的人,都知道,Reflection70B就是一场彻头彻尾的闹剧。

这个闹剧背后,我觉得反应出了现在整个AI领域,一个非常诡异的现象。

刷榜。

回到整个事情的起点,就是模型能力的强度,和榜单。

正是因为Reflection70B在评测集上屠榜了,秒杀Claude3.5和GPT4o,才让大家如此兴奋。

但是结果大家发现,卧槽你怎么就做那些特定评测集的题目那么牛逼?换个别的题就直接变废物了?不是细狗你行不行啊?

直接对着答案抄,还不行,那不扯淡吗。

大模型目前的评测体系,从来就不复杂,就是考试,纯纯的考试。

评测数据集相当于试卷,模型就是正在考试的学生,最后交卷,看谁的分高。

听起来是不是很科学?理论上是的,但是大模型评测领域有一个非常严重的BUG,就是评测集,就是考试试卷,是公开的,所有人在考试之前,都可以看到考卷。

为什么评测机构要公开评测集?不公开不就行了?

答案是不行。

高考和学校的考试,是权威的考试,我不差你一个,你爱考不考,我就是天,我就是规则,所以,他们当然不会公开试卷,一切以公平说话。

但是大模型领域,太新了,这些评测榜单,比如SuperCLUE、C-Eval、HuggingFace,话语权没那么大,供需关系倒过来了,如果机构在评测时用什么问题以及对应什么答案是什么一直不公开,如果机构的评测逻辑与工具、评分方法与过程是封闭的“黑盒子”,那一定会被招来无数质疑,先被干躺的是这些评测机构你信不信。

两害相权取其轻,所以就变成了现在的情况了。

人们总是单纯的,总是喜欢量化的,也总是喜欢用一些固定的标准,来恒定一个东西的好与差。

所以在这一年半的白模大战中,我们经常能听到各种奇奇怪怪的第一,每个模型,都说自己超越GPT4o了,把它按在脚下摩擦。

6月27日:“ 讯飞星火V4.0不仅在8个国际主流测试集中排名第一,领先国内大模型,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现了对GPT-4Turbo的整体超越。”

5月21日:"在 LMSYS最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7,中国大模型中第一,已经超过 Llama-3-70B、Claude3Sonnet;其中文分榜更是与 GPT4o 并列世界第一。"

血管堵塞有什么好办法

3月26日:"沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一"

我不想说什么模型好什么模型不好,这种刷榜到底有没有意义,我只想说,使用者一定会用脚投票的。

况且,有的排行榜,那是真的不能看,比如前段时间看到的一个权威机构的文生视频排行榜,用量化指标来恒量视频生成质量。

别的我不说了,我就说你把智谱清影排在可灵上面,你自己去问问智谱的人,他们敢接这个第二吗?智谱是一家很实诚的公司,所以他们品牌市场也没拿这玩意去做宣传,你要是一些别的公司,又得PR起飞了。

这个榜单创作者们看到也只会笑笑,大家不傻,真的。

在经济学中,有一个著名的理论,叫做古德哈特定律。

原意是:一项社会指标或经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值。因为政策制定者会牺牲其他方面来强化这个指标,从而使这个指标不再具有指示整体情况的作用。

用最简单的话来说,就是:

"当一个指标成为目标时,它就不再是一个好的指标。"

万物皆如此。

所以这里,我想说一个暴论:现在的大模型榜单,还有各种乱七八糟的AI产品榜单,参考看看可以,但是不要奉为圣经,更不要当真,拿来做你跟别人吵架的凭据。

骗骗兄弟可以,别把自己也骗了。

当所有的大模型,都用MMLU、MATH、IFEval、GSM8K之类的基准测试来衡量自己模型的能力,那这些基准测试,也就不再是一个好的基准了。

去年一篇论文让我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,来自中国人民大学。

现在的大模型榜单,真就没一个可信的吗

里面详细的阐述了因为数据泄露而引起的整个大模型刷榜情况的虚假繁荣。

N多模型,直接把评测集的数据训在了模型里面,从而直接屠榜,来引起声量和讨论。

这就像学校里考试,我们每个人都公平的在考场上,一起考试答题,大家各凭本事一决胜负。

但是偏偏有个学生,平时满分750他只能考个299,但是这次,他在考试前,已经提前知道了所有卷子的题目和答案,都在脑子里背了下来,只有一些语文之类的主观题没有满分,其他全是满分,考了720分。

那你会觉得,他考了720分,是因为他真的牛逼吗?

傻子才会。

大模型的评测,跟这种考试,没有任何区别。刷题而已,人类刷了几千年的题,这点手段,还能难倒背后的人?开什么玩笑。

所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一种方法,用n-gram哈希算法在考试前对数据污染现象,进行严格检查,只要是作弊的,一律滚出去。

可惜,因为我上面说的那些乱七八糟的问题,并没有办法用上,现在所有的榜单,都还是充斥着无数的水分。

榜单不再可信,但是普通用户和开发者,永远会用脚投票。

请在手机微信登录投票

你心中No.1的大模型是哪个?单选文心一言腾讯混元字节豆包阿里通义GPT-4oClaude3.5智谱清言KimiGemini讯飞星火

所以,真的,骗骗哥们可以,别把你自己也骗了。

AI这行里,真的充斥着各种各样奇奇怪怪的现象。

脚踏实地做点事吧。

站在普通人的场景想想未来。

我觉得,比那一瞬的泡沫,更重要。


返回网站首页

本文评论
腾讯“生态车联网”解决方案获最具投资价值智能网联黑科技大奖
  11月20日,由证券时报主办、中国汽车报协办的“赋能·智联·骤变”的2019 5G科技峰会在北京人民日报社报告厅正式召开,在同时举行的汽车“黑科技”颁奖中,腾讯智慧出行...
日期:09-25
泰捷和当贝盒子怎么选,专业对比评测告诉你答案!_泰捷和当贝机顶盒哪个更好
  目前市面上比较好的高端电视盒子,除了外国高价高性能品牌英伟达、苹果等,国内现存在售的售价在4-5百元的电视盒子就是当贝,创维,泰捷这几家了,今天我们主要讲下泰捷we4...
日期:07-14
在物联网产业链中,中国移动的主攻领域包括哪些「中国移动:加入两大物联网专利池,5G标准专利数量全球领先」
中国移动:加入两大物联网专利池,5G标准专利数量全球领先 通信产业网|2023-11-29 09:50:57作者:通文来源:通信产业网苹果 英特尔【通信产业网讯】近日,中国移动加入Sisvel低功耗物...
日期:11-29
扎克伯格 拜登「扎克伯格公开暗示帮助掩盖拜登家族丑闻?各方紧急回应」
  编辑/史正丞  随着美国中期选举进入倒计时,一切与两党对立有关的消息都能掀起比往日更高的波浪,本周社交媒体集团Meta Platform首席执行官扎克伯格就因为几句话卷入了一...
日期:09-05
苹果iPhone 14或将在印度生产 和中国零件差距在缩小_苹果13印度生产吗
8月23日消息,据业内人士爆料称,苹果打算在iPhone 14开售两个月之后就开始在印度生产。可以看到,苹果在布局中国以外的iPhone零件生产厂。对此苹果此前曾表示,印度市场很大,也需要...
日期:09-19
投行预计苹果第二财季营收949亿美元 生产约5800万部iPhone「苹果2021二季度财报」
4月20日消息,据外媒报道,苹果公司已经宣布,他们2023财年第二财季的财报,将在当地时间5月4日发布,财报分析师电话会议,将在太平洋夏令时间5月4日下午2:00,也就是北京时间5月5日早上5...
日期:04-20
《荣耀》官宣盾山航天新皮肤 致敬中国空间站「王者荣耀盾山新皮肤」
10月,梦天实验舱将在中国文昌航天发射场,发射升空。中国空间站的三舱基本构型,也将在随后建造完毕。这是实现中国载人航天三步走”战略的伟大时刻。为了致敬这一历史性的荣耀时...
日期:11-03
升级版特斯拉 Model 3 在北美上市,此前已在中国等市场推出_model3美国上市时间
IT之家 1 月 10 日消息,特斯拉升级后的 2024 款 Model 3已经登陆北美市场,此前该车已在欧洲、中东和中国等市场先行上市,该车在北美市场的内部代号为“Highland”,在中国市场名...
日期:01-11
Claude 3推实验性功能,提供提示词优化器
划重点:首都博物馆直播雷军说马斯克2021年E3电子娱乐展览会该买iphone13还是等iphone14...
日期:03-12
回头看:Sora十问
回头看:Sora十问 通信产业网|2024-02-20 09:18:19作者:党博文 胡媛来源:通信产业网【通信产业网讯】(记者 党博文 胡媛)这个春节,最炸烈的,不是烟花,而是Sora。大年初七,OpenAI发布的...
日期:02-20
开心人公司获赔40万 “真假开心网”终审落槌
  ,“真假开心网”案于4月11日在北京市高级人民法院进行了二审终审,当庭判决维持一审判决结果,认定被告方千橡互联及千橡网景公司侵权事实成立,责令其停止使用“开心网”名称...
日期:07-27
孟羽童再发文辟谣离职格力传闻_孟羽童在格力最近怎么样了
11月8日 消息:近日,有消息称孟羽童已“离职格力”、“被移出公司通讯录”,孟羽童则“辟谣”回应,“谁再说我离职我真的会揍人”。辟谣后,孟羽童晒出受邀参加2022娇兰晚宴的照片,...
日期:11-13
区块链的下半场,与 NFT 无关「区块链nft什么意思」
蚂蚁链如何重塑交易信任。作者 | Founder Park虚拟货币已经在某种意义上成了「割韭菜」的代名词了。前不久,哔哩哔哩的二舅视频刚走红,便有人借此热点以慈善的名义发行了名为...
日期:09-27
淘宝直播:发布法律、财经等较高专业水平内容账号需执业资质认证
10月8日 消息:近日,淘宝网宣布将对《淘宝直播管理规则》认证管理条款进行修订,并新增《淘宝直播认证管理实施细则》,规则将于2022年10月15日正式生效。据悉,此次规则主要变更点...
日期:10-09
amd r7 5800x与r9 3900x如何选择「AMD Ryzen 7000非X系列将于明年1月10日推出,R9 7900比5900X更快」
AMD很快将带来三款新的Ryzen 7000系列处理器,均为65W型号,分别为Ryzen 9 7900、Ryzen 7 7700和Ryzen 5 7600。根据之前泄露的价格,分别对应为429美元、329美元和229美元。北京...
日期:12-27
欢迎光临2023世界计算大会GCC绿色计算产业生态展区(D3)「绿色计算产业联盟gcc」
华为mate50pro直面屏9 月 15 日至 16 日,由湖南省人民政府、工业和信息化部共同主办的“ 2023 世界计算大会”将在湖南长沙盛大召开。大会概况名称: 2023 世界计算大会主题:...
日期:09-05
vivo总裁沈炜出生「沈炜:vivo的黄金时代不在过去 仍在将来」
1月11日晚间消息,vivo今天晚上召开2022线上年会,对2022年进行了回顾和总结,并对2023年提出了展望和规划;同时,对“vivo人像”等20个项目颁出年度创新贡献奖。年会上,vivo创始人、...
日期:01-11
苹果零售店员工组织工会要求加薪_苹果店员工要求是什么
北京三里屯苹果零售店(资料图) 新浪科技讯 北京时间5月20日早间消息,苹果零售店的一些员工正在组织工会,以要求更优厚的工资,对抗苹果的“不公平待遇”。 这一名为“苹果零售...
日期:07-28
赛博朋克2077 1080p dlss「《赛博朋克2077》销量破2000万份 首批适配NVIDIA DLSS 3」
虽然《赛博朋克2077》在最初上市之后遭到吐槽,尤其是与前期宣传不符,以及优化拉胯等问题,十分影响玩家体验。iPhone watch series 3雅虎现任首席技术官但官方一直在努力补救,挽...
日期:09-29
中国商飞宣布C919完成取证试飞,距离商业运营还有多久「中国商飞正式签署c919」
美股三大指数全线收跌达量限速后不再收费什么意思中国商飞官微8月1日宣布,国产大飞机C919完成取证试飞。C919大型客机是我国自行研制、具有自主知识产权的大型喷气式民用飞机...
日期:09-22