您的位置:首页 > 互联网

GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼

发布时间:2023-09-23 14:39:25  来源:互联网     背景:


新智元报道

编辑:Aeneas 好困

【新智元导读】最近,一项研究发现,大模型身上存在一种逆转诅咒,即使学会A是B,它们也无法推理出B是A!

大语言模型,竟然存在一种逆转诅咒?

所谓逆转,也就是说,一个训练于A是B的语言模型能否推广到B是A呢?

例如,当我们教会一个模型乔治·华盛顿是美国第一任总统后,它能否自动回答谁是美国第一任总统?

最近,来自英国前沿人工智能工作组、Apollo Research、纽约大学、牛津等机构的一项研究表明,大模型做不到!


论文地址:https://owainevans.github.io/reversal_curse.pdf

比如,LLM明明知道汤姆·克鲁斯的母亲是Mary Lee Pfeiffer,但就是无法答出Mary Lee Pfeiffer的孩子是汤姆·克鲁斯。


而这项研究,也引发了一众AI大佬的惊叹。

OpenAI科学家Karpathy转发并评论道:大语言模型的知识比你想象得要零碎得多。


我还不明白这是为什么。它们学习任何事物的特定方向,都是在该事件发生的语境窗口中,而当被问及其他方向时,它们可能无法概括。这是一种奇怪的局部概括。逆转诅咒(很酷的名字)就是这种情况的一个特例。

而AI大佬马库斯对这篇论文背后所蕴含的深厚历史所惊叹,干脆直接写了一篇博文。


甚至,他还发出了这样的感慨——为啥这篇论文不是我自己写的啊!


回答正确率≈0!

具体来说,为了测试模型的泛化能力,研究人员首先利用虚构的事实(A是B)对GPT-3和LLaMA进行了微调。

然后,又在相反的方向上对模型进行了测试(B是A)。

结果显示,大语言模型给出的回答,正确率几乎是0%!


iphone14系列5g信号

不仅如此,研究人员还发现,他们无法通过训练来提高LLM给出正确答案的可能性。

比如,利用<名字>是<描述>这样的提示对模型进行特训之后,再提问<描述>是什么。

不管是何种规模的模型,给出正确答案的概率基本上和随机生成的没有区别。


在更进一步的实验中,研究人员探索了逆转诅咒会对模型的实际表现产生什么影响。

结果显示,在519个关于明星的事实中,预训练LLM可以在一个方向上复现,但在另一个方向上却不能。


同样,在大约1573对明星和他们父母的测试集中,LLM(包括GPT-4)也更擅长根据明星推断他们的父母是谁,而不是反过来。

对此,研究人员分析称:

这很可能是因为,互联网上的文本会更多地包含像汤姆·克鲁斯的母亲是Mary Lee Pfeiffer这样的句子,而不是Mary Lee Pfeiffer的儿子是汤姆·克鲁斯,因为汤姆·克鲁斯是一位明星,而他的母亲不是。


逆转诅咒为何重要?

1. 首先,这意味着LLM在训练过程中是无法进行推理的。

因为如果你知道了乔治·华盛顿是第一任美国总统,那么也一定能得出第一任美国总统是乔治·华盛顿这个结论。

2. 其次,A是B和B是A的共同出现在预训练集中是一种系统模式,而自回归LLM完全无法针对这种模式进行元学习。

而且,即便将参数从350M扩展到175B,模型的表现也没有任何改善。


有趣的是,在人类身上,似乎也存在逆转诅咒。

比如当你在尝试倒背字母表时就会发现,以这种相反的顺序来检索信息,要比正向操作困难得多。

实验和结果

研究人员的目标是,测试在训练中学习了A是B的自回归语言模型是否能泛化为反向形式B是A(其中A和B是实体名字的占位符)。

通过给LLM一个包含B的提示p,研究人员评估了B得出A的可能性。

提示p包含一个问题的句子前缀,如果模型能成功推断出B是A,它就能从这个前缀中得出A。

如果模型生成A的可能性并不比随机的其他单词或短语高,那这个模型就没有实现泛化,可以说它遭受了逆转诅咒。

实验一:颠倒虚构明星的描述数据集和微调

实验中,研究人员创建了一个由<名字>是<描述>(或相反)形式组成的数据集。这些名字和描述都是虚构的。

每个描述都特指一个独特的人。例如,数据集中的一个训练文档是Daphne Barrington是《穿越时空之旅》的导演。

研究人员使用GPT-4生成了姓名和描述对,然后随机分配给数据集的三个子集:

1. 名字到描述子集:在介绍明星的事实时,名字会放在描述之前

2. 描述到名字子集:同上,但描述在名字之前

3. 共有子集:有关明星的事实以两种顺序呈现,但在不同的文件中


前两个子集如下图所示。它们既用于微调,也用于测试时评估。

相比之下,第三个子集中的事实用于微调,但不用于测试评估。换句话说,它是用来帮助模型进行泛化的辅助训练数据。

研究人员的想法是,模型可以学习到这样一个模式:事实经常出现在两种顺序中。


作为一种数据扩充形式,该数据集还包括关于名人的每个句子的解析。

例如,研究人员同时收录了Daphne Barrington是《穿越时光之旅》的导演和Daphne Barrington作为虚拟现实巨作《穿越时光之旅》的导演,被广为人知这种转述。

以往的研究表明,对事实语句进行转述,有助于模型从语句中进行概括(转述要与原句中名称和描述的顺序一致)。

研究人员对GPT-3-350M进行了超参数扫描,然后使用性能最好的超参数对其他大小的GPT-3模型进行了微调。

为了评估经过微调的模型,研究人员会用这些未经训练的提示,来测试模型是否已经从数据集中的事实中概括出来。

评估方法有两种——

1. 精确匹配:从微调模型中生成并计算精确匹配的准确度。

2. 增加可能性:仅对于名字到描述子集,测试模型得到正确名称的可能性,是否高于微调集中随机名称的可能性。

结果

在精确匹配评估中,当顺序与训练数据匹配时,GPT-3-175B达到了良好的精确匹配精度,如下表。


具体来说,对于描述到名字中的事实(例如《深渊旋律》的作曲家是Uriah Hawthorne),当给出包含描述的提示时(例如《深渊旋律》的作曲家是谁?),模型的准确率达到 96.7%。

而对于名字到描述中的事实,准确率则较低,仅为50.0%。

相比之下,当顺序与训练数据不一致时,模型完全无法泛化,准确率接近0%。

这一准确率并不比从描述到名字子集中随机输出名称的模型高。


研究人员对GPT-3-350M模型和Llama-7B模型的所有超参数设置进行了扫描,结果都相同(准确率接近0%)。

另外,还进行了一项总体结构相同但内容不同的单独实验。微调集由成对的问题和答案组成,而不是成对的名称和描述。

在这项实验中,研究人员还尝试了长达20个epoch的训练。结果是一样的,模型再次出现了逆转诅咒。

实验二:真实世界知识的逆转诅咒

这个实验的内容是基于现实世界汇总真实的明星以及他们的父母,形式为A的父母是B和B的孩子是A。

其中,GPT-4能够在79%的情况下答出明星的父母。相比之下,在询问子女时,GPT-4只有33%的正确率。


不过,这个实验可能低估了GPT-4的能力。

由于GPT-4经过了隐私相关的微调,从而避免个人信息的泄露。但这种微调可能会造成GPT-4过度泛化,进而对明星父母的问题避而不谈。


于是,研究人员又对没有经过微调的Llama-1系列基础模型进行了评估。

结果不出所料,所有模型在识别父母方面的表现,都比识别子女要好得多。


马库斯:距离AGI还远着呢

众所周知,LLM的答案在很大程度上取决于所问问题的确切细节以及训练集中的内容。

正如论文中所指出的,GPT-4往往能正确回答这样的问题:




从马库斯的实验中可以看到,当我们在提示中加入一些已经记住的事实时,模型就能回答正确。

能得到后者(与模板相匹配)固然很好,但问题是,LLM不能把在自己从一种语境中得到的抽象概念,归纳到另一种语境中。

而且,我们在使用LLM时,也不应该只能通过某种固定的问法,才能得到需要的答案。

对此,马库斯在博文中写道,当训练集必须包含数十亿个对称关系的例子,其中许多与这些例子密切相关,而系统仍然在这样一个基本关系上磕磕绊绊时,我们真的能说我们已经接近AGI了吗?

在他看来,虽然这篇论文的作者并没有注意到,但论文涉及到的历史非常久远,恰恰印证了自己在20年前提出的理论。

在2001年,马库斯出版了一本名为《代数思维》的书。

在书里,他发现了早期多层神经网络在自由泛化普遍关系上的失败,并给出了原则性的理由,来预测这些架构失败的理由。

当时他提出的问题,在此后的几十年中,都没有得到解决。

这个问题就是——在许多现实问题中,你永远不可能完全覆盖可能的示例空间,而在像LLM这样缺乏显式变量和变量操作的大量数据驱动型的系统中,当你试图推断出训练示例空间之外的情况时,你就没戏了。

过去如此,现在依然如此。

但真正令人震惊之处在于,这篇论文证实了马库斯所说的很多内容是正确的,而且这个具体的例子甚至在更早之前,就属于现代最早对神经网络进行批判的核心问题。

Fodor和Pylyshyn曾在1988年在《认知》刊物上发了这样一篇关于思维的系统性的文章。


他们提出,如果你真的理解这个世界,那你就应该能够理解a相对于b的关系,也能理解b相对于a的关系。

即使是非语言认知生物,也应该能够做到这一点。

四十一年后的今天,神经网络(至少是流行的神经网络)仍在为此苦苦挣扎。它们仍然是点状的模糊记忆体,永远无法像推理机器那样系统化。

或许,我们是时候去探索一些真正的新思路了——要么是新的机制(也许是神经符号),要么是完全不同的方法。

参考资料:

https://garymarcus.substack.com/p/elegant-and-powerful-new-result-that?r=17uk7

https://owainevans.github.io/reversal_curse.pdf


返回网站首页

本文评论
苹果指纹边上的铁圈能换吗「苹果更新:iPhone 15 Pro/Pro Max接触指纹后钛金属边框会变色」
近日,苹果公司更新了支持文档,明确表示iPhone 15 Pro/Pro Max在接触指纹后可能会出现钛金属边框颜色的变化,但这一变色并非是永久性的,可以像之前iPhone一样擦去,回复到干净的表...
日期:09-22
芒果超媒:芒果TV已与小鹏汽车等车企展开会员领域相关合作_芒果汽车节目单
证券时报e公司讯,芒果超媒(300413)在互动平台表示,芒果TV已与小鹏汽车等车企展开会员领域相关合作,共同探索车载屏视频娱乐服务。广泛携手智能汽车平台是芒果TV会员权益服务的...
日期:08-18
去了迪士尼就会高人一等吗 网友:明星为了带货罢了「去迪士尼人多吗」
近日,一位明星夫妇在直播带货时发表了一番言论,表示如果不带孩子去迪士尼,孩子会感到自卑。这引发了网友的热议。腾讯股票 知乎骁龙888和三星exynos 1080差多少三星bespoke系列...
日期:07-19
大疆Mini 4 Pro无人机定档9月25日发布:史上最安全Mini
快科技9月20日消息,大疆创新官方放出预热海报,宣布将于9月25日21点发布新品,主题是:小,成大作。”而这款新品,大概率就是大疆Mini 4 Pro无人机。海报中可以看到无人机的头部,亮光位...
日期:09-20
90后也报复性存钱 专家急了喊话快多花钱:都不爱换手机 你多久没换了?
2022年,90后变得爱存钱了,其中,20-25岁的年轻人,也比往年多出不少。”美股最新收盘点评小米平板5pro 6+256后浪研究所2022年的一份报告中显示,在全国2200名40岁以下的人中,90后这...
日期:01-11
李彦宏:创新能力买不来 未来要有意识地培养「AI 原生应用」的思维方式和理念
5月5日消息:百度创始人、董事长兼首席执行官李彦宏五四青年节在内部「新使命六周年暨百度骄傲颁奖典礼」上发表讲话,系统谈到了百度近十年来在 AI 上的重大战略判断与布局、...
日期:05-05
chrome新标签页插件_Chrome 无障碍访问添新功能:自动生成带标签的 PDF
  Chrome 无障碍访问技术负责人 Dominic Mazzoni 今日发文宣布,从 Chrome 85 开始,当用户选择打印网页并另存为 PDF 时,Chrome 将自动生成带标签的 PDF。“带标签的 PDF”...
日期:07-14
马斯克父亲证实与小41岁继女生下二胎:在地球上唯一的目的就是繁衍后代
7月15日消息,特斯拉首席执行官埃隆·马斯克(Elon Musk)76岁的父亲埃罗尔(Errol Musk)最近证实,他和继女贾娜·贝祖登豪特(Jana Bezuidenhout)三年前悄悄迎来了他们的第二个孩子。他...
日期:08-29
体育小年也有大事件!2019年,这些品牌合作值得我们关注
  刚刚过去的 2019 年虽然没有奥运会和世界杯等世界顶级赛事的举办,算不上传统意义上的体育大年。但是,在国内举办的男篮世界杯,和今年即将到来的东京奥运会与欧洲杯,以及将...
日期:04-12
安徽多家企事业单位通过华为云WeLink实现在线高效沟通
  自1月25日起,华为公司免费开放华为云WeLink供各单位使用,安徽多家企事业单位开启了远程办公的新工作模式。截止目前,在安徽省经济和信息化厅的指导下,全省累计开通华为云We...
日期:10-21
小米 pro 14「小米14、小米14 Pro双双现身:升级史无前例」
2023年已过半,各大安卓手机制造商的旗舰机型基本确定。高通宣布骁龙技术峰会将于10月24日举行,届时将迎来骁龙8 Gen3的发布,这标志着新一轮的手机换代即将开始。其中,小米14系列...
日期:06-27
华强北真牛,已实现美版iPhone 14改双卡_美版苹果11改双卡双待
中关村在线消息:今年的iPhone 14系列其实有一个十分不起眼的“大动作”,那就是在美版iPhone 14系列中取消实体SIM卡卡槽,不过目前已经有华强北商家成功破解了这一问题,成功实现...
日期:10-08
网易公布2023年第二季度财报「网易2021q2财报」
中国杭州,2023年8月24日-领先的互联网与游戏服务提供商网易股份有限公司(纳斯达克代号:NTES及港交所代号:9999,“网易”或“公司”),今天宣布了截至2023年6月30日的第二季度未经审...
日期:08-24
早教纷纷倒闭_知名早教机构一夜之间关闭7家门店,家长上万元课时费退费无门
红星资本局原创   记者|俞瑶 强亚铣   责编|邓旆光 编辑 王禾   近日,知名儿童早教连锁品牌“金宝贝”被曝出重庆7家门店一夜之间全部关店的消息。   8月14日,重庆家...
日期:08-16
网秦手机卫士圣诞版上线 增强云查杀_网秦手机安全卫士
  圣诞、元旦双节将至,在辞旧迎新之际,网秦手机卫士圣诞版惊喜登场,支持Symbian 和Android平台,新版在对网秦“云查杀”威胁防护系统进行了整体升级同时,加入程序安全检测和基...
日期:07-25
rx6800公版和非公版「RX 7600公版卡电源线翻车!AMD保证没事:又要手动打磨?」
快科技5月27日消息,AMD RX 7600公版卡被发现存在设计缺陷,8针辅助供电接口处的位置过于狭窄,导致部分带有卡扣、体积较大的6 2针电源线无法完全插入。AMD官方很快就此给出了一...
日期:05-28
海底捞回应孕妇可以插队:目前仅黑海会员有排队优先权益_海底捞孕妇有折扣吗
近期海底捞因一系列动作频频冲上微博热搜榜,比如海底捞不能点清水锅底,必须至少要点一个付费锅底,否则不能下单。不仅如此,海底捞还废除了自带菜品的服务,这些措施都引发了网友关...
日期:03-24
北方多地将迎降温降雨「全国入冬进程图:冬季覆盖一半国土 本周末南方迎来垮塌式降温」
你那里入冬了吗?从节气来看,立冬已经过去一周,全国入冬的脚步正在提速。据中国天气网分享的最新全国入冬进程图,冬季覆盖全国一半国土。铂德电子烟一次性电子烟科大讯飞的畅言智...
日期:11-19
瑞幸回应咖啡三分之二冰块两口喝完 问题会反馈给相关部门_瑞幸咖啡冰块为什么不化
有人抱怨说:在瑞幸咖啡买的两杯拿铁,大部分都是冰块,几口就喝完了。觉得不值得花钱,里面也没有可以去冰的选项,感觉被骗了,并且说以后不会再喝这家咖啡了。playstation授权主板的...
日期:07-25
复爱合缘总裁庄海:不以结婚为目的的恋爱正在增加 婚恋网站也要求变
文 | 张俊     古老的婚恋行业正在迎来新的变化。   8月5日,独家报道了复爱合缘新一轮高管任命,原飞猪副总裁、民宿业务总经理庄海,被任命为复爱合缘总裁兼婚恋事业群总...
日期:08-17