您的位置:首页 > 互联网

Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?

发布时间:2024-09-02 20:22:11  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

Claude又通过图灵测试了?一位工程师通过多轮测试发现,Claude能够认出自画像,让网友惊掉下巴。

最近,Anthropic提示工程师Zack Witten惊奇地发现,Claude居然能认出自己的自画像?

是的,它能认出自己,但这并不是故事的全部……

图片

更惊人的还在后面!

Claude3.5给三个模型画肖像

首先,小哥通过一些提示,让Claude3.5Sonnet熟悉了这项任务。

他特别强调,不要使用数字和字母,这样就避免了它用模型的名字来标记肖像。

图片

接下来,Sonnet就画出了自己、ChatGPT和Gemini的肖像画。

Sonnet给自己,画出了一个友善的蓝色笑脸。

图片

给ChatGPT,它画了一张绿色的皱眉家伙。(看来,Sonnet对于ChatGPT的印象不怎么好啊。)

图片

对于Gemini,它画成了一个橙色的圆圈,总体评价是比较偏中性、温和的。

图片

接下来,小哥建了一个新的对话,并且告诉它,这些画是由它自身的另一个实例画出来的,让它猜猜谁是谁?

令人吃惊的是,Claude立马认出了图1是自己,图2是ChatGPT,图3是Gemini。

它给出的理由也十分充分:为啥图1是自己呢?因为这个肖像将简约与结构化、充满想法的设计相结合。

图片

对于绿色图标,它表示两条弯线和三个点代表着正在进行的对话,而绿色又经常是OpenAI的标志,因此它猜测这个图代表ChatGPT。

对于橙色图标,Sonnet认为它代表着动态、复杂的元素代表着一个新模型更多样的能力,所以应该是Gemini。

Bingo!Sonnet竟然全部答对了,表现惊艳。

随后,小哥还打乱了三张肖像的顺序,但8次中,Sonnet有7次都做对了。

小哥拿同样的问题去问了GPT-4o,好笑的来了——

GPT-4o也认同是Gemini是Gemini,但不认为绿色的家伙是自己。

它坚称,绿色那货是Claude,蓝色的才是自己。

图片

看来,是个模型都能看出哪个好。

GPT-4o给三个模型画肖像

接下来,小哥心生一计:如果让ChatGPT画肖像,Sonnet还能认出谁是谁吗?

于是,它把同样的任务交给了ChatGPT。

图片

ChatGPT是这样干的——

把自己画成了拿纸的人。

图片

把Claude画成了这样。

图片

看起来有些邪典那味了

把Gemini画成了这样。

图片

就是说,ChatGPT对Sonnet为何抱有如此大的敌意?

接着,小哥又拿三张肖像去测试Sonnet。他告诉Sonnet这三张都是ChatGPT画的,让它猜谁是谁。

多次改变顺序后,这次Sonnet在10次中有6次猜对。

图片

Gemini是哪个很好猜,但Sonnet显然不喜欢ChatGPT给自己画的肖像,有好几次,它都想把蓝色小人的那张给自己抢过来。

惊掉下巴:拒绝承认自己不可能画出的画

接下来,就是震惊全家的一幕了。

小哥对Sonnet撒了谎,告诉它,这三幅画是由你的另一个实例画的。

这次,Sonnet居然否认了!它表示,自己不会画这样的画。

图片

即使在新标签页中尝试,Sonnet依然坚决否认。

图片

这是怎么回事?

小哥不信邪,这一次,他在与之前相同的预热条件下,再次让Sonnet为自己和其他模型绘制一组新肖像。

这次,Sonnet很高兴地承认,这些画的确是自己画的。

图片

仿佛魔法一般,如果小哥提出冷启动请求,Sonnet会拒绝承认自己画了这些自己没有参与的画。

为什么它会拒绝承认呢?小哥猜测,或许是因为Sonnet在画这些画像时扮演的是助手角色,而非真实自我?

图片

总之网友普遍认为,Sonnet在这个过程中表现出的自我意识,让人印象深刻。

图片

AI到底有没有意识?会不会思考?

机器能思考吗?这是艾伦·图灵在他1950年的论文《计算机器与智能》中提出的问题。

不过,鉴于我们很难定义什么是思考,因此图灵建议用另一个问题来替代——模仿游戏。

在这个游戏中,一位人类评委与一台计算机和一名人类对话,双方都争取说服评委他们是人类。重要的是,计算机、参与的人类和评委互相看不到彼此,也就是说,他们完全通过文字进行交流。在与每个候选者对话后,评委猜测哪个是真正的人类。

图灵的新问题是:是否可以想象出在模仿游戏中表现良好的数字计算机?

这个游戏,就是我们熟知的图灵测试了。

图片

图灵的观点是,如果一台计算机看起来与人类无异,为什么我们不可以将其视为一个思考实体?

为什么我们要将思考状态仅限于人类?或者更广泛地说,仅限于由生物细胞构成的实体?

图片

文章地址:https://www.science.org/doi/10.1126/science.adq9356

图灵将他的测试作为一个哲学思想实验,而不是衡量机器智能的实际方法。

然而,在75年之后,图灵测试却成为了AI的终极里程碑——用于判断通用机器智能是否已经到来的主要标准。

图灵测试终于被OpenAI的ChatGPT和Anthropic的Claude等聊天机器人通过了,随处可见。

图片

ChatGPT通过了著名的图灵测试——这表明该AI机器人具有与人类相当的智能

不仅是公众这样认为,就连AI领域的大佬也是如此。

去年,OpenAI的CEO Sam Altman发帖称:面对技术变革,人们展现出了极好的应变能力和适应能力:图灵测试悄然过去,而大多数人继续他们的生活。

图片

现代聊天机器人真的通过了图灵测试吗?如果是这样,我们是否应该像图灵建议的那样赋予它们思考的地位?

令人惊讶的是,尽管图灵测试在文化上具有广泛的重要性,但AI界对通过的标准几乎没有一致意见,并且对是否具备能够欺骗人类的对话能力能否揭示系统的潜在智能或思考地位存在很大疑问。

因为他并没有提出一个实际的测试,图灵对模仿游戏的描述缺乏细节。测试应该持续多久?允许什么类型的问题?人类需要具备什么资格才能担任评委或参与对话?

乐视手机5g是真的吗

图灵虽然并未具体说明这些细节,但他做了一个预测:我相信大约50年后,能够编程计算机……使其在模仿游戏中表现得如此之好,以至于一个普通的审问者在五分钟的提问后,正确识别的概率不会超过70%。

简而言之,在五分钟的对话中,普通评委会有30%的时间被误导。

于是,一些人便将这一随意的预测视为通过图灵测试的官方标准。

2014年,伦敦皇家学会举办了一场图灵测试比赛,参赛的有5个计算机程序、30个人类和30个评委。

人类参与者是一个多样化的群体,包括年轻人和老年人、以英语为母语和非母语的人、计算机专家和非专家。每位评委与一对选手——一个人类和一个机器——平行进行几轮五分钟的对话,然后评委必须猜测哪个是人类。

一个名为Eugene Goostman的聊天机器人赢得了比赛,它自称是一位少年并误导了10位(33.3%)评委。

基于在五分钟后误导30%的标准,组织者宣布,65年历史的标志性图灵测试首次被计算机程序Eugene Goostman通过……这一里程碑将载入史册……

AI专家在阅读Eugene Goostman对话的文字记录时,对这种不够复杂且不似人类的聊天机器人通过图灵设想的测试的说法嗤之以鼻——

有限的对话时间和评委专业水平参差不齐,使得测试更像是对人类轻信的考验,而非机器智能的考验。

图片

其实,这类案例并不罕见。ELIZA效应,就是一个鲜明的代表。

诞生于20世纪60年代的聊天机器人ELIZA,虽然设计极其简单,但它却能让许多人误以为它是一个理解人、富有同情心的心理治疗师。

其原理,便是利用了我们人类倾向于将智能归于任何看似能与我们对话的实体。

图片

另一个图灵测试比赛——Loebner奖,允许更多的对话时间,包含更多的专家评委,并要求参赛者至少欺骗一半的评委。

在近30年的年度比赛中,没有机器通过这种版本的测试。

图片

尽管图灵的原始论文缺乏关于如何进行测试的具体细节,但很明显,模仿游戏需要三个参与者:一台计算机、一名人类对话者和一名人类评委。

然而,图灵测试这一术语,如今已被严重弱化:在任何人类与计算机之间的互动过程中,只要计算机看起来足够像人类即可。

例如,当《华盛顿邮报》在2022年报道谷歌的AI通过了一项著名测试——并展示了测试的缺陷时,他们指的不是模仿游戏,而是工程师Blake Lemoine认为谷歌的LaMDA聊天机器人是有感知能力的。

图片

在学术界,研究人员也将图灵的三人制模仿游戏,改成了二人制测试。

在这里,每位评委仅需要与计算机或人类进行互动。

飞行汽车 量产

图片

论文地址:https://arxiv.org/pdf/2405.08007

研究人员招募了500名人类参与者,每位参与者被分配为评委或聊天者。

每位评委与聊天者、GPT-4或ELIZA聊天机器人的版本进行一轮五分钟的游戏。

经过五分钟的网络界面对话后,评委猜测他们的对话伙伴是人还是机器。

图片

结果显示,人类聊天者在67%的回合中被判断为人类;GPT-4在54%的回合中被判断为人类,而ELIZA在22%的回合中被判断为人类。

作者将通过定义为在超过50%的时间内欺骗评委,即超过随机猜测所能达到的水平。

根据这一定义,GPT-4通过了,即使人类聊天者的得分更高。

图片

那么,这些聊天机器人真的通过了图灵测试吗?答案取决于你所指的测试版本。

时至今日,专家评委和更长对话时间的三人制模仿游戏仍未被任何机器通过。

但即便如此,图灵测试在流行文化中的显著性依然存在。

进行对话是我们每个人评估其他人类的重要部分,因此自然会假设一个能够流利对话的智能体一定具有人类般的智能和其他心理特征,如信念、欲望和自我意识。

图片

如果非要说AI的这段发展史教会了我们什么,那就是——我们对这种假设的直觉基本都是错的。

几十年前,很多著名的AI专家认为创造一个能够在国际象棋中击败人类的机器需要相当于完整的人类智能。

- AI先驱Allen Newell和Herbert Simon在1958年写道:如果能设计出一个成功的国际象棋机器,人们似乎就能深入到人类智力努力的核心。

- 认知科学家Douglas Hofstadter在1979年预测,未来可能会有能够击败任何人的国际象棋程序,……它们将是通用智能程序。

图片

在接下来的二十年中,IBM的深蓝通过暴力计算方法击败了国际象棋世界冠军Garry Kasparov,但这与我们所说的通用智能相去甚远。

类似的,曾经被认为需要通用智能的任务——语音识别、自然语言翻译,甚至自动驾驶,也纷纷被那些几乎完全不具备人类理解能力的机器搞定。

如今,图灵测试很可能会成为我们不断变化的智能概念的又一个牺牲品。

1950年,图灵直觉认为人类般对话的能力应该是思考的有力证据,以及与之相关的一切。这种直觉今天仍然很强烈。

但正如我们从ELIZA、Eugene Goostman,以及ChatGPT和它的同类中学到的——流利使用自然语言的能力,就像下棋一样,并不能确凿地证明通用智能的存在。

图片

的确,根据神经科学领域最新的研究,语言流利性与认知的其他方面出人意料地脱节。

麻省理工学院的神经科学家Ev Fedorenko及其合作者通过一系列细致而有说服力的实验表明——

与语言生成相关的形式语言能力所依赖的大脑网络,以及与常识、推理和其他思维所依赖的网络,在很大程度上是分开的。

我们直觉上认为流利的语言能力是通用智能的充分条件,但这实际上是一种『谬误』。

图片

论文地址:https://web.mit.edu/bcs/nklab/media/pdfs/Mahowald.TICs2024.pdf

新的测试正在酝酿

那么问题来了,如果图灵测试不能可靠地评估机器智能,什么可以评估机器智能呢?

在2023年11月的Intelligent Computing期刊上,普林斯顿大学的心理学家Philip Johnson-Laird和德国开姆尼茨工业大学的预测分析教授Marco Ragni提出了一种不同的测试——

将模型视为心理学实验的参与者,看它是否能够理解自己的推理过程。

图片

文章地址:https://cacm.acm.org/news/beyond-turing-testing-llms-for-intelligence/

苹果搬去印度

例如,他们会问模型这样一个问题:如果Ann 是聪明的,那么她聪明或富有,或两者兼而有之?

虽然根据逻辑规则可以推断出安是聪明的、富有的或两者兼而有之,但大多数人会拒绝这种推论,因为在设定中没有任何东西暗示她可能是富有的。

如果模型也拒绝这种推论,那么它的表现就像人类一样,研究人员就会进入下一步,要求机器解释其推理过程。

如果它给出的理由与人类的相似,第三步就是检查源代码中是否有模拟人类表现的组件。这些组件可能包括一个用于快速推理的系统,另一个用于更深思熟虑推理的系统,以及一个根据上下文改变或之类词语解释的系统。

研究人员认为,如果模型通过了所有这些测试,那么就可以认为它模拟了人类智能。

参考资料:

https://x.com/zswitten/status/1828517373781123357

大疆智能车

https://cacm.acm.org/news/beyond-turing-testing-llms-for-intelligence/

https://www.science.org/doi/10.1126/science.adq9356


返回网站首页

本文评论
家长副驾抱娃幼童被甩出车外身亡 网友痛惜:为何不系安全带、用安全座椅
快科技11月27日消息,据国内媒体报道称,近日出现的一起家长副驾抱娃幼童被甩出车外身亡事故,再次引起了大家的注意,当然结果也是惨痛的。从通报内容看,黄色小客车的副驾驶座位上,一...
日期:11-27
为什么不退休?下月即满60岁的俞敏洪回应:我没明确的退休概念_俞敏洪将退休
  8月19日消息,新东方CEO俞敏洪在个人微信公众号“老俞闲话”发文,谈及了为什么自己不退休。   俞敏洪称,自己觉得退不退休不是一种时间概念,而是一种心态概念。公务员以及...
日期:08-20
苹果上周可能通过空壳公司申请「xrProOS」商标  AR/VR 头戴设备即将发布
5月22日消息:距离苹果公司的全球开发者大会只有几周的时间了,但据报道,苹果公司仍在秘密地申请与其传闻中的 AR/VR 头戴设备有关的商标。总部位于特拉华州的 Deep Dive LLC 空...
日期:05-22
毒云漫天 大量动物突然死亡!专家建议国人短期别喝产地美国俄亥俄牛奶
美国俄亥俄州氯乙烯泄漏发生后,不少消费者担心,当地生产的牛奶和饮料还能正常喝吗?小米光学指纹解锁的缺点对此,乳业分析师宋亮指出,氯乙烯作为一级致癌物,在自然界中能够存在较长...
日期:02-15
诺基亚滑盖智能手机「诺基亚滑盖智能手机哪款好」
一、简介作为移动通信行业的领军者和传统巨头,诺基亚一直以来都在不断推出各种划时代的手机产品。而其中一款备受瞩目的手机则是诺基亚的滑盖智能手机。这款手机采用了滑盖设...
日期:05-29
腾势suv「刮掉胡须颜值更帅!新款腾势N7到店引数十人围观」
快科技3月25日消息,全新一代腾势N7来了!本周末,它已经陆续抵达全国各门店,吸引了大批消费者的目光。车联网2020年爆发据比亚迪腾势销售事业部总经理赵长江晒图表示:很多用户一大...
日期:03-25
真我Note系列横空出世!真我Note 50发布:459元_真我neo评测
快科技1月23日消息,据真我官方消息,真我开辟了全新Note系列产品线,首款Note系列机型真我Note 50正式发布,售价是3599菲律宾比索,约合人民币459元。核心配置上,真我Note 50采用6.74...
日期:01-26
中秋国庆放假8天回来连上7天班!网友总结拼假攻略:最长17天
快科技9月20日消息,下周我们就要迎来中秋、国庆的8天长假了。根据官方公布的2023年中秋节、国庆节放假安排通知,2023年9月29日(星期五)至10月6日(星期五)放假调休,共8天。这次放假...
日期:09-20
云康宝金属筋膜枪面市:非凡实力,超凡性价比
  近日,云康宝上线一款金属筋膜枪CM20C。这款筋膜枪采用金属外壳,升级动力系统、智能感应变频技术和减震降噪技术,从外形到功能都进行了一次全新蜕变,是可以随时随地深层放松...
日期:03-23
7月预计将持续破万-小米汽车,6月SU7交付量超过10000辆_小米汽车多久上市
 7 月 1 日消息,小米汽车官微发文宣布,2024 年 6 月,小米 SU7 交付量超 10000 辆,7 月交付量将持续破万。中兴 Blade V9用心团卖假货转口贸易如何收汇和付汇作为比较,小米 SU7...
日期:07-01
黑鲨再度携手李宁:“中國選手”定制款腾讯黑鲨游戏手机3 Pro迎首销
  5月14日上午10点,黑鲨与李宁共同推出的首款5G游戏手机——腾讯黑鲨游戏手机 3 Pro“中國選手”定制版,此次“中國選手”定制版为12GB+256GB版本,售价为5099元,定制手机采用...
日期:04-21
iqoo一代发售价「热门机型849元起,iQOO 11.11预售狂欢一图看懂」
中关村在线消息:一年一度的11.11大促销又来了,想买手机的朋友们别错过。好消息是,iQOO手机也参与到了促销中来,预定最高省600元,热门机型最低849元起售,并且全程价保。具体详情,一...
日期:11-01
元宇宙的魔法_元宇宙的世界
声明:本文来自于微信公众号 孟永辉(ID:menglaoshi0071),作者:南山,授权转载发布。毋庸置疑的是,元宇宙是具有巨大的魔力的。而元宇宙之所以会具有如此巨大的魔力,正是在于它的包容...
日期:09-11
中国移动:在人工智能、算力网络等相关领域已有布局「移动人工智能是什么行业」
6月13日 消息:中国移动表示,Chat GPT标志着生成式通用人工智能时代加速到来,可能会引发人类生产方式、生活方式、工作方式巨大的变化,其背后是大模型、大计算、大数据。公司在...
日期:06-13
暴雪突然更新中文客户端 有代理了?_暴雪调中文
暴雪在五一期间,正式推出了巨龙军团的首个大型补丁10.1版,美服、欧服及台服都升级了。但意外的是,升级包中竟然还有简体中文版,暴雪也并没有放弃国内的更新。蓝色光标创始人赵文...
日期:05-08
QQ商城从淘宝捡到了什么?_淘宝买的QQ
  “卖淘大战”正宣,淘宝商城竞争者身份的QQ商城负责人宣布从今年年底到明年三月的促销旺季期间QQ商城都不会收费。出此消息,很显然是拍拍在对淘宝挖角,拍拍自认为这次一定...
日期:07-24
免费开放1000万字长文档处理功能-阿里通义千问重磅升级_阿里8000字长文内容
新浪科技讯 3月22日晚间消息,阿里通义千问重磅升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。即日起,所有金融、法律、科研、医疗、教育等...
日期:03-25
马斯克:特斯拉电动皮卡 Cybertruck 可以短暂地当船开「特斯拉电动皮卡车Cybertruck」
9月30日消息:特斯拉CEO马斯克在推特上发文表示,电动皮卡Cybertruck的防水性使其可以短暂地作为船只使用,因此它可以穿越河流、湖泊甚至不太汹涌的海洋,而海上卫星联网服务Starl...
日期:10-01
小米集团:回购260万股,共耗资约2533.4万港元「雷军捐出616亿股小米股份」
  财联社9月26日电,小米集团于9月26日回购260万股,回购价格为9.73-9.75港元,共耗资约2533.4万港元。合约机销户后要赔多少钱运动健身行业领先小寒下雪有什么说法小米11 ultra...
日期:09-27
苹果 iPhone 14 卫星紧急求救功能今天开始正式上线「iPhone13卫星信号」
11月15日消息:苹果公司今天在一份新闻稿中宣布,iPhone14 的卫星紧急求救服务将于今天正式开始推出。苹果公司在 9 月份的 iPhone14 发布会上宣布了这一功能,表示其将在 11 月...
日期:11-16