您的位置:首页 > 互联网

图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

发布时间:2023-09-01 11:00:55  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】如何给大模型一个真正公平评价标准呢?

世界最强AI——ChatGPT可以通过各种考试,甚至输出回答让人难以辨别真假。

然而,它也有力所不及之处,那便是解决简单的视觉逻辑难题。

在一项由屏幕上排列的一系列色彩鲜艳的块组成的测试中,大多数人都能找出连接的图案。

但是,根据研究人员今年5月的一份报告,GPT-4在一类图案的测试中正确率仅为1/3,而在另一类图案中正确率仅为3%。

论文地址:https://arxiv.org/pdf/2305.07141.pdf

这项研究背后的团队,旨在为了测试AI系统的能力提供一个更好的基准,并帮助解决GPT-4等大型语言模型的难题。

论文作者Melanie Mitchell表示,人工智能领域的人们正在为如何评估这些系统而苦苦挣扎。

AI评估如何有效?

在过去的两三年里,LLM 在完成多项任务的能力上已经超越了以前的人工智能系统。

它们的工作原理很简单,就是根据数十亿在线句子中单词之间的统计相关性,在输入文本时生成可信的下一个单词。

对于基于LLM构建的聊天机器人来说,还有一个额外的元素:人类训练员提供了大量反馈,以调整机器人的反应。

令人惊叹的是,这种类似于自动完成的算法是在大量人类语言存储的基础上训练出来的,其能力的广度令人叹为观止。

其他人工智能系统可能会在某项任务中击败 LLM,但它们必须在与特定问题相关的数据上进行训练,无法从一项任务推广到另一项任务。

哈佛大学的认知科学家Tomer Ullman表示,从广义上讲,对于LLM背后发生的事情,两个阵营的研究人员持有截然相反的观点。一些人将算法的成就归因于推理或理解的闪光点。其他人(包括他自己和Mitchell等人)则要谨慎得多。

讨论双方的研究人员表示,像逻辑谜题这样揭示人类与AI系统能力差异的测试,是朝着正确方向迈出的一步。

纽约大学认知计算科学家Brenden Lake说,这种基准测试有助于揭示当今机器学习系统的不足之处,并理清了人类智能的要素。

关于如何最好地测试LLM,以及这些测试意义的研究也很实用。

Mitchell说,如果要将LLM应用于现实世界的各个领域,比如医学、法律。那么了解它们的能力极限就非常重要。

图灵测试死了吗?

长期以来,机器智能最著名的测试一直是图灵测试。

图灵测试是英国数学家和计算大师艾伦·图灵在1950年提出,当时计算机还处于起步阶段。

图灵提出了一个评估,他称之为「模仿游戏」。

在这个场景中,「人类法官」与一台计算机、和一个看不见的人进行简短的、基于文本的对话。

这个人类能可靠地检测出哪台是计算机吗?图灵表示,这是一个相当于「机器能否思考」的问题。

Mitchell指出,图灵并没有具体说明场景的许多细节,因此没有确切的标准可循。

其他研究人员认为,GPT-4和其他LLM现在很可能通过了「图灵测试」,因为它们可以骗过很多人,至少是在短对话中。

5月,AI21实验室的研究人员报告说,超过150万人玩过他们基于图灵测试的在线游戏。

玩家正确识别机器人的比例仅为60%,这并不比偶然性好多少。

然而,在这种游戏中,熟悉LLM的研究人员可能仍然会获胜。通过利用AI系统的已知弱点,就会很容易发现LLM。

关键是要让LLM走出自己的「舒适区」。

谷歌软件工程师François Chollet建议,向LLM演示一些场景,这些场景是LLM在其训练数据中经常看到的场景的变体。在许多情况下,LLM的回答方式是,吐出最有可能与训练数据中的原始问题相关联的单词,而不是针对新情景给出的正确答案。

然而,Chollet和其他人对,把以欺骗为中心的测试作为计算机科学的目标持怀疑态度。

基准测试有危险

相反,研究人员在评估人工智能系统时,通常不采用图灵测试,而是使用旨在评估特定能力(如语言能力、常识推理和数学能力)表现的基准。

越来越多的研究团队也开始转向,为人类设计的学术和专业考试。

GPT-4发布时,OpenAI在一系列专为机器设计的基准测试中测试了其性能,包括阅读理解、数学和编码。

根据技术报告,GPT-4在其中大部分测试中都取得了优异成绩。

此外,GPT-4还参加了30项考试,GRE、评估美国医生临床知识现状的考试、为美国高中生设计的各种特定科目的考试等等。

后来,有研究人员提到的一个挑战是,模型是在大量文本中训练出来的,它们可能已经在训练数据中看到过类似的问题,因此实际上可能是在寻找答案。这个问题其实被「污染」了。

研究人员还指出,LLM在考试问题上的成功可能一击就破,可能无法转化为在现实世界中所需的强大能力。

在解释这些基准的含义时,还有一个更深层次的问题。

一个在考试中表现出色的人,一般可以被认为在其他认知测试中表现出色,并且掌握了某些抽象概念。

然而,LLM工作方式与人类截然不同。因此,用我们评判人类方式,来推断人工智能系统,并不总是有效的。

这可能是因为LLM只能从语言中学习。如果没有在物理世界中,它们无法像人那样体验语言与物体、属性和情感的联系。

腾讯停止运营qq

很明显,他们理解单词的方式与人类不同。

另一方面,LLM 也拥有人类所不具备的能力,比如,它们知道人类写过的几乎每一个单词之间的联系。

OpenAI的研究员Nick Ryder也认为,一项测试的表现可能,不会像获得相同分数的人那样具有普遍性。

他表示,我认为,我们不应该从对人类和大型语言模型的评估中得出任何等价的结论。OpenAI 的分数 "并不代表人类的能力或推理能力。它的目的是说明模型在该任务中的表现如何。

人工智能研究人员表示,为了找出LLM的优势和劣势,需要更广泛和严格的审查。丰富多彩的逻辑谜题可能是其中的一个候选者。

逻辑谜题登场

2019年,在LLM爆发之前,Chollet在网上发布了,自己创建的一种新的人工智能系统逻辑测试,称为抽象和推理语料库(ARC) 。

解题者要看几个方格变为另一种图案的可视化演示,并通过指出下一个方格将如何变换来表明他们已经掌握了变化的基本规则。

Chollet表示,ARC 捕捉到了「人类智慧的标志」。从日常知识中进行抽象,并将其应用于以前从未见过的问题的能力。

当前,几个研究团队现在已经使用ARC来测试LLM的能力,没有一个能实现接近人类的表现。

Mitchell和她的同事制作了一系列新的谜题——被称为ConceptARC——它们的灵感来自ARC,但在两个关键方面有所不同。

ConceptARC测试更容易。Mitchell的团队希望确保基准测试,不会错过机器能力的进步,哪怕是很小的进步。另一个区别是,团队选择特定的概念进行测试,然后为每个主题的变体概念创建一系列谜题。

小米civi1s新品发布会直播

性能差意味着什么

研究人员将ConceptARC任务分配给GPT-4和400名在线应征者。

人类在所有概念组中的平均得分率为91%(其中一组为97%);GPT-在一组中的得分率为33%,在所有其他组中得分不到30%。

苹果8有金色的吗

研究人员证明,AI仍然无法接近人类的水平。然而令人惊讶的是,它能解决一些从未被训练过的问题。

研究小组还测试了Chollet竞赛中的领先聊天机器人。

总的来说,他们比GPT-4做得更好,但表现比人类差,在一个类别中得分最高,为77%,但在大多数类别中得分不到60%。

不过,Bowman表示,GPT-4在ConceptARC考试中的失利并不能证明它缺乏基本的抽象推理能力。

其实,ConceptARC对GPT-4有些不利,其中一个原因是它是一项视觉测试。

目前,GPT-4仅能接受文本作为输,因此研究人员给GPT-4提供了代表图像的数字数组。相比之下,人类参与者看到了图像。

推理论证

Bowman指出,与其他实验综合起来表明,LLM至少已经获得了对抽象概念进行推理的基本能力。

但LLM的推理能力总体上是「参差不齐的」,比人类的推理能力更有限。不过,随着LLM的参数规模扩大,推理能力相应地也会提高。

许多研究人员一致认为,测试LLM抽象推理能力和其他智力迹象的最佳方法,仍然是一个开放的、未解决的问题。

参考资料:

https://www.nature.com/articles/d41586-023-02361-7


返回网站首页

本文评论
女子1人排队登机招呼全团插队 被制止后反怼:我代表团队
5月8日消息,据沸点视频报道,在泰国芭堤雅乌塔堡机场,排在第一位的女领队不断招呼团友钻过出口处的警戒线进来插队,导致正常排队的队伍半个小时仍一动不动。当事人称,当时还有几个...
日期:05-08
laya 3d「国产3D引擎巨头发布LayaAir3.0正式版」
随着元宇宙及数字产业的快速发展,过去主要活跃在游戏产业的3D引擎,被运用到更广泛的行业,包括工业、军事等安全领域。与此同时,在CPU、GPU等技术“卡脖子”事件频出背景下,3D引擎...
日期:06-30
​AI不会淘汰创作者,但率先掌握AI的创作者会
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),作者: 园长,授权转载发布。“我的AI角色成为了目前的顶流。”说这话的人是“冷门歌手”孙燕姿。最近,她的声音被AI改编,用...
日期:05-26
联发科今年10月实现营收70.4亿元 同比增长38.3%_联发科2019年营收
11月11日消息,联发科日前公布了10月份营收情况。联发科10月实现营收新台币304.39亿元(约合人民币70.4亿元),同比增长38.3%。由于10月工作天数减少,联发科营收较上月下滑19.61%,不...
日期:08-07
喜欢阅读选手机还是专业阅读器?海信彩墨屏阅读手机A5C一次满足你
  长久以来,海信手机一直坚持在水墨屏手机上投入研发,目的就是为了给用户带来更接近书籍真实的视觉反馈以及更好得保护眼睛。而当大家渐渐习惯了之后发现,只能显示黑白两色...
日期:05-23
网友吃火锅被反向抹零多收0.3元 店家:四舍五入系统设定
你在外面吃完饭结账时,遇到过老板反向抹零”的操作吗?近日,四川成都一位网友吐槽称,自己吃火锅,原价是244.7元,小票显示四舍五入应付245元,被多收0.3元。对此,商家表示,四舍五入的机...
日期:12-28
00后平均期望薪资超7K 月薪高于一切:曾被痛批不应为钱选择工作「90后年薪」
据每天学点经济学消息,中青校媒的一份大学生求职力”问卷调查显示,00后的平均期待薪资超过7K每月,1/4的00后期待薪资超过15K每月。而因为工作内容过于简单没有挑战性离职的,占比...
日期:02-07
ebay美国的员工收入「eBay 宣布计划将裁员 500 人 约占员工总数的 4%」
2月8日消息:据eBay提交给美国证券交易委员会(SEC)的文件显示,eBay宣布计划裁员500人,约占其员工总数的4%。裁员未来24小时内通知受影响的员工。moto官网中国商城eBay 首席执行官...
日期:02-09
AWE 2023盛大开幕 三星多款热门Galaxy智能手机重磅亮相_三星2022款手机
4 月 27 日, 2023 年中国家电及消费电子博览会(AWE 2023)于上海新国际博览中心盛大开幕。作为全球三大家电及消费电子展之一,AWE2023 以“智科技,创未来”为主题,吸引了多个重点领...
日期:04-28
辽宁网友拍到少见“雷打雪”现象:下雪天雷声响彻天际 震耳欲聋
12月20日晚,辽宁丹东东港迎来暴雪,有网友拍到雷打雪”的一幕。联想集团杨元庆年薪雷打雪”通常指的是在降雪的同时伴有打雷现象,主要原因是之前暖湿空气势力较强,冷空气下来的时...
日期:12-22
沃尔玛“再攻”流媒体
魅族18降至冰点价求销量   来源:北京商报   当地时间8月16日,美国最大传统零售商沃尔玛公布了截至7月31日的2023财年第二财季业绩报告。沃尔玛第二财季营收1528.6亿美元,但...
日期:08-17
商务部:对原产美国和欧盟单模光纤继续采取反倾销措施_欧盟光纤光缆反倾销
2023/4/21 16:20 商务部:对原产美国和欧盟单模光纤继续采取反倾销措施  南山 ...
日期:06-02
宁德时代麒麟电池已量产 同体积比特斯拉电池电量高13%
作为全球动力电池一哥,宁德时代在电池技术上准备了多条技术路线,去年发布了麒麟电池,比4680圆形电池性能更优秀,可轻松实现电动车1000公里续航,解决续航焦虑。3月21日,宁德时代向...
日期:03-24
苏宁易购:双11以来门店家电订单量环比增长146%「苏宁家电销量第一」
10 月 28 日消息,苏宁易购数据显示,自双 11 开启以来,全国门店客流环比增长185%,门店家电订单量环比增长146%,其中洗烘一体机、节能热水器等暖冬升级类家电增幅较大,环比超135%。...
日期:10-29
明起施行!天津电动车将禁止进入电梯:违者最高罚千元_天津电动车进电梯违法吗
与室外、停车场等区域不同,电梯是密闭空间,同时,电动自行车进电梯时一定会有人在电梯里,此时如果电动车电池在电梯内突发爆燃,很难轻易逃生,加上毒烟毒气和高温会严重危害乘梯人生...
日期:01-31
潮玩品牌的“救命稻草”:去海外,清库存?
  文/习睿  泰国女孩Lina将可爱的潮玩摆放在她的办公室里。她还特意买了宜家的展示柜,腾出一整面墙来给这些潮玩们一个“家”。  Molly、Dimmo、若来,她的展示柜里陈列...
日期:09-17
腾讯靠这家公司,拿下了海外休闲市场的7000万日活「腾讯海外股份」
声明:本文来自微信公众号“游戏新知”(ID:youxixinzhi),作者:梓秋,授权转载发布。腾讯不久前公布的Q1财报显示,游戏出海收入创同期新高,并特地点名子公司Miniclip发行的一款消除类...
日期:06-09
红米K60系列正式上架!限量1000台先到先得「红米k60最新消息」
中关村在线消息:12月23日,据相关爆料,即将在本月27日发布的红米K60系列已上架京东平台,为大家带来了三款机型,除了常规的Pro版以及标准版外,本次红米K60系列新增K60E,定位于性能轻...
日期:12-23
来自Wyn Enterprise的十大行业数据分析方案与可视化大屏模板
  Wyn Enterprise 作为可深度集成的自助式商业智能和报表软件,为软件研发公司、系统集成商和企业用户提供完整的数据应用解决方案,包括:多级数据上报、跨源数据整合、业务报...
日期:10-01
反向打破索尼独占游戏PC在线记录:《麻布仔大冒险》Steam在线仅610人
10月下旬,索尼将第一方独占游戏《神秘海域》搬上PC,虽然该作在PS平台口碑出色,但在Steam首发在线人数峰值却只有10317人,创下新低。htc vive和pico对比但刚刚发售不久的另一款索...
日期:11-07