您的位置:首页 > 互联网

35年首次证明,NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

发布时间:2023-10-27 10:27:07  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,,授权转载发布。

【新智元导读】Nature刊登了纽约大学等机构的研究人员在人工智能领域最新突破,证明神经网络具有类似人类语言的泛化性能,再一次印证了AI发展的无限潜力!

35年来,认知科学、人工智能、语言学和哲学领域的研究人员一直在争论神经网络是否能实现类似人类的系统泛化。

具体来说,人们一直认为,AI无法像人类一样具有系统泛化(systematic generalization)能力,不能对没有经过训练的知识做到举一反三,几十年来这一直被认为是AI的最大局限之一。

腾讯投资面经

最近,NYU和西班牙庞培法布拉大学的研究者首次证明——它可以!

他们在这个方向取得了里程碑式的突破,论文已经刊发在了Nature上。

论文链接:https://www.nature.com/articles/s41586-023-06668-3#auth-Brenden_M_-Lake-Aff1

研究人员提出了一种新的神经网络训练方法——MLC(Meta-Learning for Compositionality),能够大幅提高神经网络举一反三的能力,甚至能够超越人类!

人类之所以能够做到举一反三,快速掌握复杂语言的含义或者某种技巧,是因为人类天生具有系统泛化的能力。

举个例子,如果我们从未听过秦始皇戴小红帽——赢到姥姥家了这个短语,但知道秦始皇叫嬴政,知道小红帽的故事,就能理解这个歇后语,还能把它用在正确的地方。

但就算是先进如GPT-4的AI模型却还是无法理解这个歇后语,即使他知道秦始皇叫嬴政,以及小红帽的故事。

研究人员通过一种新的神经网络训练方法——MLC在变化的任务环境中训练模型,使模型逐步获得组合词汇含义的系统性推理能力。

结果表明,MLC模型不仅可以做出符合逻辑的响应,还能捕捉人类偏差性错误的规律,在人机对比中展现出惊人的人类化思维。

甚至,通过MLC训练出来的模型,系统泛化能力已经碾压了GPT-4。

论文作者同时还强调,如果孩子们在自然成长的体验中也有类似MLC这样的组合和激励机制,就可以解释人类的系统性泛化能力的来源。

这项研究可能会对人工智能和认知科学都产生深远影响。

它表明合适的方法可以让标准神经网络获得人类语言思维的核心特征——系统性复合推理能力。

尽管当今最强大的AI模型(例如 ChatGPT)可以在许多对话场景中发挥作用,但在对未训练过的知识的理解能力上,仍然存在不足。

某种程度上导致了模型幻觉问题一直无法有效解决。

针对LLM的局限,作者强调,研究通过MCL来解锁了系统性泛化(SG)的更加强大的能力之后,也可能帮助大语言模型来克服自身固有的缺陷。

理解系统性泛化(Understanding Systematic Generalization)

这一突破性的研究在于系统性概括的概念。当我们人类在不同的环境时,拥有毫不费力地适应和使用新学单词的能力。

例如,Photobomb是一个英语俚语,指的是在拍照时突然出现在照片中,通常是有意而为之,以吸引注意力或制造幽默效果。

一旦我们理解了Photobomb这个词,我们就会本能地知道如何在各种情况下使用它,无论是两次Photobomb还是在使用Zoom期间进行Photobomb。

同样地,当人类理解狗追猫这样的句式结构之后,可以轻松掌握猫追狗的含义。

然而,人类固有的举一反三的理解和泛化能力,对于人工智能来说一直是具有挑战性的前沿领域。

传统的神经网络是AI研究的支柱,但是它不具备理解和泛化能力,神经网络只会努力合并一个新单词,否则需要靠大量的样本进行广泛的训练。

几十年来,这种受限的泛化性一直是AI研究人员争论的话题,关于神经网络作为人类认知过程的真实反应是否可行,引发了大量的讨论。

在本文中,研究人员提供了证据,证明神经网络可以通过研究人员提出的MLC(Meta-Learning for Compositionality)系统实现类似人类的系统泛化。

MLC 是研究人员提出的一种优化程序,旨在通过一系列少样本合成任务来激励系统性(如下图1)。

研究人员展示了MLC如何通过实践来提高神经网络的组合技能(Compositional Skills)。

MLC获得一个新词(或规则系统)并尝试系统地使用它。在不断地修正和更新理解之后,可以对下一个新词重复该过程。

研究人员构建的MLC只使用了常见的神经网络,没有添加符号机制,也没有手工设计的内部表示或归纳偏差。

相反,MLC提供了一种通过高级指导和/或直接人类示例来指定所需行为的方法;然后要求神经网络通过元学习(Meta Learning)来培养正确的学习技能。

为了证明MLC的能力,研究人员在相同的系统泛化测试中并排对比评估了人类和机器的能力。

具体来说,研究人员,在伪语言(pseudolanguage)指令学习任务中使用代数或数学概念,以测试人类和机器学习系统对这些概念的理解和应用能力。

还研究了人们对高度模糊语言的探测反应。这些语言探测的设计目的是了解人类在面对模糊信息时的倾向或偏差。

即人类如何进行归纳推理,以及这些倾向或偏差是如何可能促进或者阻碍系统性泛化。

在对结果进行了评估之后,研究人员发现,MLC实现(甚至超过)人类水平的系统泛化!

当人类行为偏离纯粹代数推理时,MLC 还会产生类似人类的错误模式。

这表明神经网络是一种卓越的建模工具,可用于细致入微的人类组合行为。

在最后一组模拟中,研究人员展示了 MLC 如何提高流行基准的准确性,以实现少样本系统泛化。

研究细节(The Study in Detail)

为了更深入地研究神经网络的功能及其语言泛化的潜力,作者进行了全面系统的实验,其不仅研究了机器,25名人类也交叉地参与其中,以此作为AI的表现基准。

在实验中使用了一种伪语言,即参与者不熟悉的单词,这样能够确保参与者真正第一次学习这些术语,从而为测试泛化性能提供一个可信的baseline。

如上图(左侧),原始类别包括dax、wif、lug等单词,它们象征着类似于jump、skip跳过与跳跃的基本动作(下图左侧)。

另一方面,使用更抽象的功能词,比如blicket、kiki、feg,为之前的原始词术语的应用和组合制定了规则,从而推断出skip twice、walk backwards等序列。

在培训参与者的过程中还引入了视觉元素,每一个原始单词都与特定颜色的圆圈相关联。

例如,如下图,红色圆圈代表dax,而蓝色圆圈代表lux。

制定好颜色单词映射规则后,接下来,向参与者展示原始语和功能词的组合,并附带彩色的圆圈图案。

例如,一个短语fep与三个红色圆圈配对,说明fep可能代表一个动作的三次重复。

此外,为了衡量参与者的理解能力和系统性的概括能力,还向它们展示了原始词和功能词的负责组合。参与者的任务是准确地推断出圆圈的颜色和数量,并进一步给出正确的排列顺序。

影响力和专家意见(Implications and Expert Opinions)

这项研究不仅仅是人工智能研究史册上的又一个增量,还代表了范式的转变。

神经网络的性能密切反映了类人系统的泛化能力,这引起了广泛学者和行业专家的关注。

github是谁开发的

著名约翰霍普金斯大学语言专业认知科学家Dr. Paul Smolensky表示:

在训练过程中能让网络拥有系统化能力的重大突破。

如果可以训练网络进行系统泛化,那么这些模型就可能彻底改变聊天机器人、虚拟助手等诸多应用程序。

然而,这种发展不仅仅是技术的进步,它还触及了AI界长期存在的争论:

神经网络是否真的可以视作准确模拟人类认知的工具?

在过去的近四十年里,这个问题一直是AI研究者们争论不休的焦点。尽管有些人相信神经网络有潜力模拟类似人类思维过程,但另一些人依然对它们的天生局限表示怀疑,特别是在语言泛化领域。

苏宁创业大赛

这项研究的结果带来了新的希望,使人们变得更加乐观。

正如纽约大学认知计算科学家、该研究的共同作者Brenden Lake所指出的,神经网络过去可能一直在取得艰难的进展,但通过正确的方法,它们确实可以被调整和训练,以更好地反映人类认知的各个方面。

迈向人机无缝协同的未来

AI从起初的萌芽阶段到如今强大,经历了不断地演化和突破。最近在训练神经网络系统的概括语言方面取得的成就再次证明AI的无限潜力。

当我们处于这个关头时,有必要认识到这些进步的广泛应用。

我们正一步步接近未来:机器不仅能理解人类的的语言,还能掌握细微的差别和语义,从而促进更加无缝和直观的人机交互未来。

参考资料:

https://www.nature.com/articles/s41586-023-06668-3


返回网站首页

本文评论
全球首款3nm芯片塞进电脑,苹果M3炸翻全场!128GB巨量内存,大模型单机可跑,性能最高飙升80%
新智元报道编辑:编辑部【新智元导读】史上最短苹果发布会上,M3芯片家族震撼亮相了!在它们的加持下,MacBook Pro、iMac纷纷升级成性能猛兽。史上最短苹果发布会Scary Fast,刚刚结...
日期:11-01
你看了吗?2023央视春晚触达110亿人次 年轻人占比过半_2021央视春晚观看人数
2023兔年的央视春晚已经过去两天了,大家觉得今年的春晚节目表现如何?现在央视公布数据了,全媒体触达110亿人次,创造了新高,而且年轻人占比过半。央视表示,《2023年春节联欢晚会》...
日期:01-24
2021抖音团购项目「1000亿GMV下,在抖音做团购的商家」
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:王崭,授权转载发布。抖音这条鲶鱼,成功搅动了本地生活市场。据《晚点 LatePost》报道,抖音生活服务上半年的支付交易总...
日期:08-18
特斯拉一体化压铸技术取得新突破:新车开发时间最短仅一年半
快科技9月18日消息,据报道,特斯拉在一体化压铸上取得技术突破。通过这项技术,特斯拉可将电动汽车几乎所有复杂车身底部零件压铸成一个整体,而非仅压铸约400个零部件。该技术将令...
日期:09-18
卫星,未来太空数据的「地球实时卫星图像应用」
想让太空数据服务普通人,需要给卫星装上「新大脑」。作者 | Founder Park俄乌战争中,SpaceX 的星链突然成为了大众的关注点。在战争开始后,马斯克迅速为乌克兰开启了星链服务,很...
日期:09-19
电脑浏览器兼容性站点_几大浏览器合作:解决网页适配老大难问题
  据外媒报道,苹果、Google、微软和Mozilla,以及软件顾问公司Bocoup和Igalia已经同意共同合作,致力于改善其网络浏览器的互操作性和用户体验。   这些公司制定了一项名为I...
日期:06-01
抖音“地图兴趣点搜索系统”软著获批准_抖音地域搜索
10月13日 消息:企查查APP显示,近日,北京抖音信息服务有限公司“地图兴趣点(POI)搜索系统”软件著作权获得登记批准,当前版本号为V2.0.0。OPPO录屏怎么没有声音怎么办夏普aquos ze...
日期:10-28
美股连续下跌_美股三大股指集体上涨,亚马逊涨超10%,阿里跌逾11%
美国时间周五,美股收盘主要股指全线大幅上涨,三大股指本周和7月份均创下较大涨幅。大型科技企业财报强劲提振股市;对通胀指标再度显示美国通胀高企的迹象,投资者尚未理会。道琼...
日期:08-21
斗鱼主播变相赌博「斗鱼涉赌主播吸金1.2亿获刑6年  3人共处罚金165万」
12月23日 消息:近日,四川省都江堰市法院审理了该院首例以直播平台开设赌场案件,被告人正是斗鱼平台前户外一哥“彡彡九户外”直播间。他们采用利用斗鱼之前流行的刷礼物“办卡...
日期:12-23
荣耀magic2021年「荣耀Magic6、MagicOS8.0定档:将于1月10日发布」
12月26日 消息:荣耀官方宣布,将在1月10日至11日举行一场重要的新品发布会,届时将正式推出荣耀Magic6系列旗舰手机,并发布MagicOS8.0操作系统。梅格惠特曼 惠普ios16正式版据此...
日期:12-26
销量大才是王道!买洗衣机一定要看榜单_洗衣机的销量排行
要买洗衣机,单纯看参数、看外观,很难看出区别。因为不同品牌各有各的独家科技和爆款产品。不妨看一看权威榜单,看看大家都在选择怎样的产品吧。12 月 6 日,GfK中怡康第 48 周数...
日期:12-09
刘强东就明州事件发表声明:终于结束 希望尽快恢复生活和工作_刘强东美国明州事件
凤凰网科技讯 10月2日消息,刘强东明州事件双方达成和解后,凤凰网科技从刘强东律师处获悉,刘强东发表声明称:纠葛四年的事情,今天终于结束了!再次对被这件事困扰的所有人尤其是我的...
日期:10-05
汇顶科技首次成为三星屏下光学指纹方案提供商:A71 5G首发_三星屏下指纹供应商
  4月17日消息 据证券时报,日前汇顶科技正式并首次成为三星屏下光学指纹方案提供商,首款搭载汇顶科技屏下光学指纹方案的三星手机为三星Galaxy A71 5G,将于4月18日正式开售...
日期:11-17
安卓影像机皇!小米13 Ultra预热来了:雷军晒多台徕卡相机_小米13ultra最新消息
2023年小米首款旗舰小米13 Ultra即将发布,爆料称会在本周开启预热,按以往惯例,预计会在4月4日(周二)进行首波新机预热,4月发布。日前,忙于造车的小米CEO雷军在微博晒出多台徕卡相机...
日期:04-03
易捷行云EasyStack入选未来独角兽榜单_easystack融资
  在创业创新领域,“独角兽”是个火热的词汇,作为各垂直领域的“头号玩家”,独角兽企业一直是各路资本竞相追逐的对象。然而社会的发展除了要有独角兽这一类引领产业新业态...
日期:07-14
从一场赛事看语音直播的火热:主播拼才艺,机构求破圈_语音直播玩法详解
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:场妹,授权转载发布。在抖音年度赛事嘉年华开启之前,一场面向语音独立赛道的年度赛事率先点燃了战火。近日,抖音直播面向语音赛...
日期:12-08
团购作为一种新兴电子商务模式 运营商力推团购网站_电商团购平台
  团购作为一种新兴的电子商务模式,在2010年引起一阵风潮。近期,作为国内首家由运营商推出的团购网站——“天翼团”悄然上线,团购内容主要以电信产品为主,目前仅对北京地区...
日期:07-25
工信部等十四部委:进一步深化电信基础设施共建共享 促进“双千兆”网络高质量发展
2023/5/25 10:25 工信部等十四部委:进一步深化电信基础设施共建共享 促进“双千兆”网络高质量发展   近日,工业和信息化部、教育部、公安部、民政部、自然资源部、住房...
日期:05-26
恒温恒湿实验室方案设计,优质实验环境的关键保障_恒温恒湿实验室工程技术规程
(原标题:恒温恒湿实验室方案设计,优质实验环境的关键保障) 在科学研究和工业生产领域,温度和湿度的控制对于实验结果和产品质量...
日期:01-20
投资者劝马斯克:特斯拉与其降价促销,不如花钱打广告_马斯克回应特斯拉降价
10月16日消息,特斯拉很少花钱打广告,但随着销量增长放缓和为提振汽车销量而采取降价策略,让很多投资者感到不安。尤其是降价可能会导致特斯拉今年收入减少数十亿美元。而通用汽...
日期:10-16