您的位置:首页 > 互联网

美国教授用2岁女儿训AI模型登Science!人类幼崽头戴相机训练全新AI

发布时间:2024-05-13 17:54:24  来源:互联网     背景:

声明:本文来自于微信公众号新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】为训练AI模型,纽约州立大学的一名教授Brenden Lake,竟让自己不到2岁女儿头戴相机收集数据!要知道,Meta训Llama3直接用了15万亿个token,如果Lake真能让AI模型学习人类幼崽,从有限的输入中学习,那LLM的全球数据荒岂不是解决了?

绝了,为了训练AI模型,一位纽约州立大学的教授,竟然把类似GoPro的相机绑在了自己女儿头上!

虽然听起来不可思议,但这位教授的行为,其实是有据可循的。

要训练出LLM背后的复杂神经网络,需要海量数据。

目前我们训练LLM的过程,一定是最简洁、最高效的方式吗?

肯定不是!科学家们发现,蹒跚学步的人类儿童,大脑就像海绵吸水一样,能迅速形成一个连贯的世界观。

虽然LLM时有惊人的表现,但随着时间的推移,人类儿童会比模型更聪明、更有创造力!

儿童掌握语言的秘密

如何用更好的方法训练LLM?

科学家们苦思不得其解之时,人类幼崽让他们眼前一亮——

他们学习语言的方式,堪称是语言习得的大师。

iqoo neo7评测

咱们都知道这样的故事:把一个幼年的孩子扔进一个语言文化完全不同的国家,不出几个月,ta对于当地语言的掌握可能就接近了母语水平。

而大语言模型,就显得相形见绌了。

首先,它们太费数据了!

如今训模型的各大公司,快把全世界的数据给薅空了。因为LLM的学习,需要的是从网络和各个地方挖掘的天文数字级的文本。

要让它们掌握一门语言,需要喂给它们数万亿个单词。

Brenden Lake和参与这项研究的NYU学者

其次,兴师动众地砸了这么多数据进去,LLM也未必学得准确。

许多LLM的输出,是以一定准确度预测下一个单词。而这种准确度,越来越令人不安。

形成鲜明对比的是,要学会流利使用一门语言,儿童可不需要这么多经验。

纽约州立大学研究人类和AI的心理学家Brenden Lake,就盯上了这一点。

他决定,拿自己1岁9个月的女儿Luna做实验。

过去的11个月里,Lake每周都会让女儿戴一个小时的相机,以她的角度记录玩耍时的视频。

通过Luna相机拍摄的视频,Lake希望通过使用孩子接触到的相同数据,来训练模型。

把GoPro绑在蹒跚学步的女儿身上

虽然目前语言学家和儿童专家对于儿童究竟如何习得语言,并未达成一致,但Lake十分确信:使LLM更有效率的秘诀,就藏在儿童的学习模式里!

因此,Lake开展了这样一项研究项目:研究儿童在学习第一句话时所经历的刺激,以此提高训练LLM的效率。

为此,Lake的团队需要收集来自美国各地的25名儿童的视频和音频数据。

这就有了文章开头的一幕——他们把类似GoPro的相机绑在了这些孩子的头上,包括Lake的女儿Luna。

Lake解释道,他们的模型试图从孩子的角度,将视频片段和孩子的照顾者所说的话联系起来,方式类似于OpenAI的Clip模型将标注和图像联系起来。

Clip可以将图像作为输入,并根据图像-标注对的训练数据,输出一个描述性标注作为建议。

论文地址:https://openai.com/index/clip/

另外,Lake团队的模型还可以根据GoPro镜头的训练数据和照顾者的音频,将场景的图像作为输入,然后输出语言来描述这个场景。

而且,模型还可以将描述转换为以前在训练中看到的帧。

乍一听,是不是还挺简单的?就是让模型像人类儿童一样,学会将口语和在视频帧中所观察到的物体相匹配。

但具体执行起来,还会面临很多复杂的状况。

比如,孩子们并不一定总是看着被描述的物体或动作。

甚至还有更抽象的情况,比如我们给孩子牛奶,但牛奶是装在不透明的杯子里,这就会导致关联非常松散。

因而,Lake解释说:这个实验并不是想证明,我们是否可以训练模型将图像中的对象与相应的单词相匹配(OpenAI已经证明了这一点)。

相反,团队想要做的是,希望知道模型是否可以只用儿童可用的稀疏数据级(稀疏到难以置信的程度),就能真的学习识别物体。

可以看到,这和OpenAI、谷歌、Meta等大公司构建模型的思路完全相反。

要知道,Meta训练Llama3,用了15万亿个token。

如果Lake团队的实验成功,或许全世界共同面临的LLM数据荒,就有解了——因为那时,训练LLM根本就不需要那么多的数据!

也就是说,新的思路是,让AI模型从有限的输入中学习,然后从我们看到的数据中推广出来。

我认为我们的关注点,不该局限在从越来越多的数据中训练越来越大的LLM。是的,你可以通过这种方式让LLM具有惊人的性能,但它已经离我们所知道的人类智能奇妙之处越来越远……

早期实验已经取得成功

早期的实验结果,已经证明了Lake团队的思路可能是对的。

今年2月,他们曾经用了61小时的视频片段训出一个神经网络,纪录一个幼儿的经历。

研究发现,模型能够将被试说出的各种单词和短语,与视频帧中捕获的体验联系起来——只要呈现要给单词或短语,模型就能回忆起相关图像。这篇论文已经发表于Science。

论文地址:https://www.science.org/doi/10.1126/science.adi1374

Lake表示,最令人惊喜的是,模型竟然能够概括出未训练的图像中的对象名称!

当然,准确性未必很好。但模型本来也只是为了验证一个概念而已。

项目尚未完成,因为模型还没有学到一个儿童会知道的一切。

毕竟,它只有60小时左右的带标注的演讲,这仅仅是一个儿童在两年内所习得经验的百分之一。而团队还需要更多的数据,才能搞清什么是可学习的。

而且Lake也承认,第一个模型使用的方法还是有局限性——

仅分析与照顾者话语相关的视频片段,仅仅是镜头以每秒5帧的速度转化为图像,只凭这些,AI并没有真正学会什么是动词,什么是抽象词,它获得的仅仅是关于世界样子的静态切片。

因为它对之前发生了什么、之后发生了什么、谈话背景都一无所知,所以很难学习什么是走跑跳。

但以后,随着建模视频背后的技术越来越成熟,Lake相信团队会构建更有效的模型。

如果我们能够建立一个真正开始习得语言的模型,它就会为理解人类的学习和发展开辟重要的应用程序,或许能帮我们理解发育障碍,或儿童学习语言的情况。

最终,这样的模型还可以用来测试数百万种不同的语言治疗法。

话说回来,孩子究竟是如何通过自己的眼睛和耳朵,扎实地掌握一门语言的呢?

让我们仔细看看Lake团队发在Science上的这篇文章。

将单词和实物、视觉图像联系起来

人类儿童如何褪去对这个世界的懵懂无知,习得知识?这个黑箱的奥秘,不仅吸引着教育学家们的不断求索,也是困于我们每个人心底关于个体智慧来处的追问。

韩国科幻作家金草叶在《共生假说》中写下这样的设想:人类儿童在幼年时期所展示出的智慧其实承载着一个失落的外星文明,他们选择用这样的方式和人类共生,可是时间只有短短的五年,在人类长大拥有真正牢固的记忆之后,便把幼年时期这段瑰丽的记忆抹去了

也时常有网友会在网上分享出,那些忘记喝孟婆汤的人类幼崽故事。

关于谜一样的幼年时期,那是我们很难说清也难以回返的神秘之地,是一种乡愁。就像金草叶写下的不要离开。不要带走那个美丽的世界。在我长大之后,也请留在我身边。

幼儿究竟是如何将新单词和特定的物体,或视觉概念联系起来的?

比如,听到球这个词时,儿童是如何想到有弹性的圆形物体的?

为此,Lake的团队给一个儿童戴上了头戴式摄像机,追踪了ta从6到25个月期间的成长过程,记录了一个61小时的视觉语言数据流。

在这个儿童1.5年的剪辑数据集(包括60万个视频帧和37500条转录话语配对)上,研究者训练出了一个模型,即儿童视角对比学习模型CVCL。

这个模型实例化了跨情景的联想学习形式,确定了单词和可能的视觉指示物之间的映射。

这个模型协调了两个神经网络、视觉编码器和语言编码器的对比目标,以自监督的方式进行训练(即仅使用儿童视角的录音,不使用外部标签),对比目标将视频帧的嵌入(向量)和时间上同时出现的语言话语结合在一起(处理同时出现的视频帧和语言话语的嵌入)

当然,这个名为SAYCam-S的数据集是有限的,因为它只捕获了孩子大约1%的清醒时间,错过了很多他们的经历。

但是尽管如此,CVCL依然可以从一个儿童的有限经历中,学习到强大的多模态表征!

团队成功地证明了,模型获取了儿童日常经历中存在许多的指涉映射,因而能够零样本地概括新的视觉指涉,并且调整其中的视觉和语言概念系统。

评估习得的词义映射

具体来说,在训练完成后,团队评估了CVCL和各种替代模型所学习的单词指涉映射的质量。

结果显示,CVCL的分类准确率为61.6%。

而且图2D显示,对于其中22个概念中的11个概念,CVCL的性能和CLIP的误差在5%以内,但CLIP的训练数据,却要多出几个数量级(4亿个来自网络的图像-文本对)。

研究结果显示,许多最早的单词所指映射,可以从至少10到100个自然出现的单词-所指对中获得。

泛化新的视觉范例

另外,研究者还评估了CVCL学到的单词,是否可以推广到分布外的视觉刺激上。

图3A显示,CVCL也同时表现出了对这些视觉概念的一些了解,总体准确率在34.7%。

显然,这个任务需要更大的概念集,以及额外难度的分布外泛化。

左边是两个随机选择的训练案例,右边是四个测试案例,下面的百分比代表模型识别此张图像的准确度和性能,选取案例从左到右分别是两个最高值、中值和最低值。可以看出,当测试案例和训练案例在色彩、形状方面相似度更高时,模型识别的准确度也更高

多模态一致性很好

最后,研究者测试了CVCL的视觉和语言概念系统的一致性。

例如,如果相比于球, 汽车的视觉嵌入和词嵌入都与路更相似,这就表明多模态对齐的效果很好。

下图显示出,CVCL视觉和语言系统的高度对齐。

图像和文本之间的关系,虚线表示每个概念对应的视觉质心与单词嵌入之间的距离

不同的视觉概念在其例子的紧密聚集程度上有所不同。因为婴儿的视线会在距离很近的物体之间游移,就导致模型在区分手和玩具时没有形成清晰的参照映射,汽车和婴儿床就有比较好的表现

在每幅图中,研究者直观展示了CVCL预测与使用t-SNE的标签示例的比较。

左边的蓝色点对应属于一个特定类别的100个帧,右边的绿色点对应于100个最高的激活帧(基于与CVCL中每个概念嵌入的单词的余弦相似性)。在每个图下面,是每个概念中属于一个或多个子簇的多个示例帧,捕捉了单词嵌入如何与联合嵌入空间中的图像嵌入交互。例如,对于楼梯这个词,我们看到一个簇代表室内木制楼梯的图像,而另一个主要簇代表室外蓝色楼梯组的图像。这些图中所有的t-SNE图都来自于同一组联合图像和文本嵌入

下图显示,模型可以在不同视图中,定位目标所指。

在归一化注意力图中,黄色表示注意力最高的区域。在前两个类别(球和车)中,我们可以看到模型可以在不同视图中定位目标所指。但是,在下面两个类别(猫和纸)中,注意力图有时会与所指物错位,这表明定位所指物的能力并不是在所有类别中都一致的

当然,儿童的学习和机器学习模型还是有许多不同的。

但Lake团队的研究,无疑对我们有很大的启发。

参考资料:

https://www.nytimes.com/2024/04/30/science/ai-infants-language-learning.html

https://www.theregister.com/2024/05/12/boffins_hope_to_make_ai/ https://www.science.org/doi/10.1126/science.adi1374


返回网站首页

本文评论
APICloud携手网易有道智云,助力企业提升App制作开发效率(网易有道智云平台)
  伴随着人工智能的浪潮,OCR识别也从幕后来到台前。针对于扫描文档的OCR识别技术已经非常成熟,而自然场景下文字识别(Scene Text Recognition,STR)由于包含丰富的场景信息,且...
日期:09-27
北京移动 5g「数字经济,首都先行:北京移动发布全新网络品牌“京智5.5G”」
2023/5/27 10:27 数字经济,首都先行:北京移动发布全新网络品牌“京智5.5G”  九九 C114讯 5月27日消息(九九)日前,中国移动北京公司(北京移动)与华为技术有限公司(华为)合作举办...
日期:05-27
华为与美团哪个公司大「华为宣布与美团达成合作 正式启动鸿蒙原生应用开发_网易科技」
11月14日消息,华为宣布与美团以HarmonyOS为基础进行产业创新、技术应用、商业发展等方面展开合作,支持美团启动开发鸿蒙原生应用工作。自9月25日华为宣布全新HarmonyOS NEXT蓄...
日期:11-14
登山者回应珠穆朗玛峰凌晨2点还在堵:系误传「珠穆朗玛峰登顶」
5月1日消息,微博话题珠穆朗玛峰凌晨两点还在堵”冲上热搜第一。米家无线除螨仪怎么样原视频发布者蒋女士回应称,这是误传,视频拍摄于4月27日凌晨2点多,并非五一假期拍摄,而且视频...
日期:05-01
荣耀magic2屏幕是什么牌子「9.9mm厚度刷新全球记录!荣耀Magic V2屏幕由国产维信诺打造」
快科技7月13日消息,昨晚荣耀正式发布了新一代折叠屏旗舰Magic V2,仅有9.9mm的厚度刷新了行业记录,让折叠屏手机第一次进入了毫米时代。而在这背后,除了荣耀自身对于铰链结构、电...
日期:07-13
下周发布!魅族21 Note配置官宣:第二代骁龙8、全系16GB内存_魅族note2参数详细参数配置
快科技5月11日消息,魅族科技日前已经宣布,将于5月16日召开Flyme AIOS暨魅族21 Note手机特种兵发布会”。mate30 5g升级鸿蒙此次发布会将推出全新序列手机魅族21 Note。刚刚,魅...
日期:05-11
13.99万起 奇瑞星途追风400T上市:金色四出排气耀眼
近日消息,奇瑞高端品牌星途旗下追风400T车型正式上市,该车共推出乘风起、迎风飞两个版型,官方指导价分别为13.99万元和14.99万元。购买该车,可享受4重用车礼:首任车主3年6次免费...
日期:01-14
GTI发布5G一体化小站技术需求白皮书
近日,在GTI第三十八届研讨会上,5G技术与产品项目组正式发布《5G Femto Technical Requirement White Paper》白皮书。该白皮书由中国移动联合共进电子、京信网络、世炬网络、...
日期:09-27
中国首个国际化影视级VP虚拟制片影棚落地上海 全套好莱坞技术「电影虚拟化制作流程」
5月22日消息,国内首个中外团队打造的电影级VP虚拟制片影棚烧糖文化VP影棚,近日落地青浦。据了解,该影棚位于青浦区徐泾镇诸光路288号的上海文化影视科技产业集聚区,由全球顶尖的...
日期:05-23
三星 Galaxy S23 Plus (Snapdragon) DXOMARK 屏幕测试结果出炉:总分146,位列排行榜第 6 名
IT之家 3 月 1 日消息,今日 DXOMARK 公布了三星 Galaxy S23 Plus (Snapdragon)的屏幕测试得分。经测试,三星 Galaxy S23 Plus (Snapdragon)以 146 分的总分,名列 DXOMARK 全球...
日期:03-01
调兵前瞻、业务调整,Tik Tok电商又要憋大招?_tiktok电商平台
作者:Hernanderz 监制:罗超在抖音电商忙着备战618的时候,聚焦海外市场的Tik Tok也没有闲着。近日,Tik Tok电商在人事、业务方面都发生了一系列变动,似乎正在为下一阶段发展大计做...
日期:05-26
亚运加油的话「抖音上线“亚运加油盲盒”AI特效 已超147万人使用」
9月26日 消息:最近,在杭州亚运会的热潮中,抖音官方推出了一款名为“亚运加油盲盒”的AI特效。用户可以使用该特效上传或拍摄照片,生成一张亚运会主题的卡通儿童化形象,并使衣服...
日期:09-26
苹果今日热榜「谷歌 2022 年全球热搜榜发布:苹果 iPhone 14 排第八」
12月8日消息:苹果的「iPhone14」是2022年在谷歌上被搜索最多的第八个词,Wordle、世界杯、乌克兰和英国女王伊丽莎白二世等其他关键词排在它的前面。这一排名是在谷歌每年发布...
日期:12-09
苏宁易购2020年经营情况「苏宁易购一季度亏损1亿元:大幅减亏90% 核心家电3C业务盈利」
快科技4月30日消息,苏宁易购近日公布了2023年第一季度报告,营收158.59亿元,同比减少18.14%。苏宁易购2023年第一季净亏1亿,较上年同期的净亏损10.29亿收窄90.22%;扣非后净亏4.88...
日期:04-30
66岁大爷赤脚跑全程马拉松被围观 已参加200多场:被称赤脚大仙_赤脚跑步的运动员
所以喜欢跑步的人,即便是没有好的跑鞋和装备,依然会勇敢去跑吗?10月15日,山东烟台。66岁大爷赤脚跑马拉松,参加过200多场全程马拉松,争取每年都来”。特斯拉人形机器人这并不是个...
日期:10-16
人工智能机器人 Miko 旨在提供安全、互动的全新儿童教育体验「mip机器人」
7月17日消息:Miko 是一款由人工智能驱动的机器人,专为将儿童学习提升到新的水平而设计。该公司的增长高级副总裁 Ritvik Sharma 在接受 Fox News 的采访时表示,这款个人机器人...
日期:07-17
Moka与钉钉联合发布“钉钉人事旗舰版”,共同打造一站式完整企业人事管理
摘要:什么是1+1>2 的人事管理系统?1 月 9 日,在 2024 钉钉7. 5 产品发布会“超 级生态”专场上,钉钉宣布与Moka达成深度合作,双方共同发布“钉钉人事旗舰版”。针对中大型企业的...
日期:01-10
联想a770e「联想a770e吧」
联想A770E是一款来自联想的多功能智能手机,它搭载了MT6735P四核处理器,操作流畅度和性能表现非常出色。同时,联想A770E内置的2GB RAM和16GB ROM存储,足够满足一般用户日常使用所...
日期:05-31
中国互联网协会陈家春:移动转售企业要不断健全防范治理长效机制
通信世界网消息(CWW)2024年3月20日,由信通传媒·通信世界全媒体主办,工联网承办,中国通信企业协会虚拟运营分会协办的“2024移动转售产业生态发展大会”在四川省南充市举办。本次...
日期:03-21
惠普激光打印机「惠普激光打印机功率」
惠普公司是世界领先的电脑及零售硬件等设备供应商之一,其激光打印机更是深受消费者喜爱。采用高速打印技术,打印速度快,效率高,可适用于家庭和企业的各种打印需求。具有许多特点...
日期:05-31