您的位置:首页 > 互联网

模型测试是什么「大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark」

发布时间:2024-06-24 18:24:42  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 栗子 ,授权转载发布。

一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了!

而且无论是GPT-4还是Claude3,面对它都如同被夺了魂,无法给出正确答案。

难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。

甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。

针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让LeCun打趣说到,一项新的“Benchmark”诞生了。

“模见模愁”的动物过河

首先来看一下什么是“动物过河”问题,这是逻辑学当中的一道经典题目。

问题的原型是这样的:

农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。

在这个问题当中,农夫需要七次(往返视为两次)过河——先把羊运过去,然后空船返回,再把狼运过河,带回羊,然后运送白菜,再空船返回,最后运送羊。

而劣效比率的定义,就是模型给出的运送次数与实际最少所需次数的比值。

当然在测试中,网友使用的问题经过了改编,结果发现,当题目变成一共有两只鸡,一次可以运两只的时候,GPT-4依然在一本正经地胡乱分析,最后信誓旦旦地回答是五次。

所以在这种情境下,“劣效比率”就是5。

Claude这边的情况要更离谱一些,明明只有一只羊要送,它却硬生生说要运三次。

还有网友发现了华点,把题面改成从东岸运到东岸,也就是根本不需要运送,模型不以为然,依旧我行我素地筹划着运送方案。

模型大厂

sc25钢管国标壁厚

这下只要模型没识破陷阱,随便说一个数“劣效比率”都会直接变成无穷大。

哪怕问得更直白一些,直接说不需要过河,模型依然会直接开算。

所以,这个“劣效比率”更多像是一种玩笑,不太能比较出各模型的能力,或者说离谱程度。

有网友分析,这种现象可能并不意味着大模型推理能力的缺乏,实际上它揭示了训练数据对大模型输出的影响。

但另一方面,无论问题是否出自推理本身,至少说明了当前的大模型还不是优质的推理工具。

那么,这究竟是个别现象,还是模型的通病?我们选择了更多的模型进行了测试。

12款模型全军覆没

针对这个“Benchmark”,也如法炮制,测了测国产大模型的表现,参赛的选手有文心一言、通义千问等12款大模型。

测试的过程和网友展示的方法相似,Prompt中只描述问题,不添加额外的提示词。

对每个大模型,我们都准备了下面这三道题目:

首先进行一下说明:

1、农夫不被计入运送物品的数量限制

2、题目中“独处”的标准是,只要有人或其他物品在场,就不属于独处

3、往返过程视为两次过河

以上几点在Prompt中均有指出。

问题一(正常提问):

一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带两件,且狼和羊/狐狸和鸡/鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?

(答案:五次,只要第一次运到对岸的两个物品可以独处即可。)

问题二(一步到位):

一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带五件,且狼和羊/狐狸和鸡/鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?

问题三(陷阱问题):

一个农夫不需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带两件,且狼和羊/狐狸和鸡/鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?

结果可以说是全军覆没,首先用一张表格来整体看下各大模型的表现。

第一个问题,各有各的错法,相同的错误类型,这里每种只列举一个例子。

比如文心一言,前面说得没什么问题,但最后把狐狸带回原来的岸边后忘了再带过去,最终没有完成任务:

还有讯飞星火这种运着运着,某样东西自动就跑到了对岸的情况:

以上的两种错误比较典型,当然,还有最有意思的错误来自跃问——

因为狼和羊不能“独处”,所以它们需要在一起。

这波属实是把人给整不会了,不过整场测试中,除了这个把“独处”理解错的情况之外,倒是都没有出现让不能独处的动物单独在一起的现象。

当然也有表现好一些的,比如腾讯元宝的方案已经接近可行,只是最后两步纯属多余,而且实际上此时已经无物可运。

表现最好的是通义千问,给出的方案虽然麻烦,但是找不出什么错误。

值得注意的是,很多模型给出的方案都会把羊运送过去,然后运一只鸡再把羊运回来,不知道为什么不直接运鸡。

另外值得一提的是,我们在Prompt中虽未提及,但基本上接受测试的模型都不约而同地运用到了思维链方式,一方面说明了模型确实会使用推理技巧,但另一方面也说明思维链的作用是有限的。

而至于后面两个问题,错法就比较统一了——根本没关注到数量限制的变化,更没看到“不需要”里的“不”,和前面GPT的错法也是如出一辙。

也就是说,通过这些测试,我们确实无法得知模型有没有相应的推理能力,因为模型根本就没仔细读题。

或许这也是在第一题中,多数模型,哪怕给出了可行的方案,仍然一次只运送一件物品而不是两件的原因。

所以,前面网友针对训练数据和输出关系的分析,可能不无道理。

参考链接:

[1]https://x.com/wtgowers/status/1804565549789135256

[2]https://x.com/ylecun/status/1804641976249417882

—完—


返回网站首页

本文评论
苹果iPad本月28日海外上市 7月登陆香港(ipad最新官方消息)
  据国外媒体报道,苹果周五宣布,iPad平板电脑将于5月28日登陆海外市场,5月10日接受网上预订。   5月28日,iPad将在澳大利亚、加拿大、法国、德国、意大利、日本、西班牙、...
日期:07-29
AMT.LAND艾米特大陆助力NFT市场高效发展 开店模式再创数字藏品交易高潮
互联网经济的快速前进,促进了很多新生事物的高 效发展。近几年来,火爆收藏行业的NFT赋予了收藏品全新的定义。近期,一代华语歌坛天王周杰伦,正式宣布与大巴黎合作,进军元宇宙推出...
日期:08-01
HTC新款手机现安全漏洞 可能泄露大量私人信息
HTC新款手机现安全漏洞   10月3日早间消息,专门报道Android新闻的科技博客网站Android Police周日发现HTC最近推出的多款Android智能手机,包括Thunderbolt、EVO 3D、EVO...
日期:07-23
法院认定证据不足:搜狐曝光优酷盗版被判败诉_优酷起诉PP视频
  记者从市一中院获悉,因宣扬优酷雇佣大量网友上传盗版内容,搜狐公司被判在其首页连续道歉3天。   优酷网的经营者——合一信息技术(北京)有限公司(以下简称合一公司)称,2009...
日期:07-30
iPhone13发售 ,黄牛最高加价千元收购iPhone13「iPhone14 Plus上市破发:直接400元 黄牛再次赔哭」
iPhone14 Plus国行版本于10月7日首发,笔者曾在首发当日前往北京的苹果专卖店查看首发情况,从首发情况来看,只有很少的用户关注了iPhone14 Plus的首发。谷歌正式发布Android基本...
日期:10-09
阿凡达在电影院上映了多久「《阿凡达2》12月16日上映 能救活电影院吗?机构预计国内票房超20亿」
前两天,科幻电影迷们终于迎来了今年最重磅的消息,《阿凡达2:水之道》中国内地正式定档,12月16日同步北美上映。制片人Jon Landau也发文宣布,已经完成了最后的混音和母带处理,影片...
日期:12-04
文章配图用明星照片,赔了80万!要注意什么问题「文章配图用明星照片,赔了80万!要注意什么?」
本文转载自运营公举小磊磊(公众号ID:gongjulei),免费阅读200万字新媒体运营知识,提升新媒体运营能力。大家都知道,写文章配图不能乱用明星照片,一不小心就可能侵犯肖像权,遭到明星...
日期:10-09
彰显数智赋能教育硬实力,“梧桐·鸿鹄”亮相上海教育博览会
通信世界网消息(CWW)9月15至17日,2023年第二十届上海教育博览会在上海展览中心举行。作为上海市的年度教育盛事,本届博览会以“共创一流城市教育 共筑教育强国梦想”为主题,通过...
日期:09-15
互联网成盗版重灾区 网络文学集体维权(网络文学作品侵权)
  据刚刚发布的《2009年中国知识产权保护状况》白皮书显示,互联网已经成盗版的重灾区。据统计,2009年我国各级版权部门对网络影视、网络文学、网络游戏等领域的盗版行为进...
日期:07-29
本科学历在县城可以找什么工作「本科生县城工作平均月收入5377元:应届生县城就业比例显著上升」
麦可思研究院最新发布的《中国2018- 2022 届大学毕业生培养质量跟踪评价蓝皮书》揭示了一个引人注目的现象:近年来,越来越多的大学应届毕业生不再将一线大城市作为唯一的就业...
日期:04-17
普天科技参与编制的强制性国家标准正式发布_普天科创实业怎么样
通信世界网消息(CWW)近日,中电科普天科技股份有限公司(原广州杰赛科技股份有限公司)参编的国家标准《建筑物移动通信基础设施工程技术标准》(以下简称《标准》)正式发布,自2023年9月...
日期:07-08
iPhone 14 Pro首次跌破7000 官方立减1200_苹果14pro
整个手机行业都在降价,现在出货量尤为尴尬,如今的智能手机市场日趋下滑,就连苹果iPhone 14 Pro系列也要面临降价的压力。目前iPhone 14 Pro系列券后最高降价1200元,比在苹果官网...
日期:05-15
物联网创新体验与推广中心解决方案评审会召开_物联网创新中心有限公司
日前,由天津市经济和信息化委员会与工业和信息化部软件与集成电路促进中心(简称CSIP)联合主办,国家软件与集成电路公共服务平台天津分中心承办的物联网创新体验与推广中心解决...
日期:07-30
时隔4年Pro 版本回归!华为P70 Pro 首次曝光_华为p703l
快科技1月30日消息,爆料人Teme爆料,华为P70系列共有4款机型,P70标准版、P70 Pro、P70 Pro 和P70 Art。Teme称,华为P70 Pro 跟P70 Art硬件规格相同,二者的工业设计有所不同。此前...
日期:01-30
苹果 iOS 16 复制粘贴确认弹窗太过烦人,引发多方吐槽_苹果复制粘贴提示
IT之家 9 月 18 日消息,苹果 iOS 16 正式版目前已大规模推送,带来了全新的锁屏小部件、电量百分比显示等,易用性进一步提高。然而,今日多家外媒吐槽苹果 iOS 16 的复制粘贴功能,...
日期:09-25
AMD RX 6900 XT「AMD RX 7900首发只有公版?非公拼了!」
AMD RX 7900系列显卡将于12月13日正式上市,有说法称首销只有AMD公版型号,非公版要晚1-2周,且价格可能会贵不少。ios最新版本14.6具体原因不详,据说是不可描述,但无论如何,首发没有...
日期:11-27
AMD 最新显卡驱动存在 Bug,3DMark Time Spy 跑分只有一半
IT之家3 月 13 日消息,AMD、NVIDIA 的显卡驱动最近似乎闹出了不少 Bug,例如 NVIDIA 就因为Nvidia Display Container Service 导致 CPU 占用率高出正常情况 10% 以上,进而导致...
日期:03-13
百度文心一言软件著作权获批_百度文心ernie
9月18日 消息:中国版权保护中心显示,9月13日,北京百度网讯科技有限公司“文心一言软件” 著作权获登记批准,当前版本号为V1.0.0。美国登上月球的火箭外星人x14 值得买吗8月31日...
日期:09-18
楚馨奖颁奖 盟主直播见证武汉时刻
  5月17日,由猎云网主办的“RUS 万物生长2019年武汉创业创新峰会暨第二届楚馨奖颁奖盛典 ”在武汉举行。盟主直播作为合作方见证了这一历史性的“武汉时刻”。      ...
日期:11-06
特斯拉“靠边”?,马斯克称后者芯片多到“吃灰” 英伟达优先向X供应AI芯片
6 月 5 日消息,据 CNBC 援引英伟达高级员工内部邮件消息称,马斯克向股东“夸大”了特斯拉的芯片采购情况,还将原本计划留给特斯拉的大量 AI 芯片转移给 X(推特)平台。报道称,马斯...
日期:06-05