您的位置:首页 > 互联网

年龄两岁,教龄一年半:婴儿AI训练师登上Science_婴儿训练视频教程全集

发布时间:2024-02-03 18:20:42  来源:互联网     背景:

机器之心报道

编辑:娄佳琪、张倩

只用 61 个小时的数据:人们终于证明了,利用当代 AI 工具,实现真正的语言学习是可行的。

在公开采访中,图灵奖得主 Yann LeCun 多次提到,现在的 AI 模型和人类婴儿相比,学习效率实在是太低了。那么,如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西,它能学到什么?

最近,Science 杂志上的一篇论文进行了初步尝试。研究发现,即使数据有限,AI 模型也能从 10 到 100 个例子中学到单词 - 视觉所指对象之间的映射,而且能够零样本地泛化到新的视觉数据集,并实现多模态对齐。这说明,利用当今的人工智能工具,从婴儿的视角进行真正的语言学习是可能的。

年龄两岁,教龄 1 年半

Sam 是怎么教 AI 学习的?

这一次,人工智能通过婴儿的视角看世界来学习语言。

神经网络通过人类婴儿的视觉经验,自行学会了识别物体,这为人类学习提供了新的见解。

AI 通过 Sam 佩戴的头盔式摄像机所拍摄的音视频学习。

当婴儿听到球这个词时,他们是如何将这个词的语义与圆形、有弹性的物体(即正确的视觉所指对象)联系起来的呢?哲学家和认知科学家都认为,婴儿在学习新词时,需要从众多候选意项中挑出正确的那一个。

婴儿非常擅长学习词汇。在 6 到 9 个月大的时候,他们开始将单词与眼前的物体建立起音形义的联系。到 18 到 24 个月大的时候,他们已经能理解约 300 个单词。

那么,孩子们是如何快速学会眼前物体的名称的呢?他们又是如何建立起物体的意义和其视觉之间的联系呢?这些问题都需要进一步的探索和研究。

此前,已有一些相关理论在实验中得到了验证。有学者认为单词学习是由简单的、能串联起各领域的联想学习机制驱动的。但是这些理论通常是在婴儿不同的成长时间段测量的,不能揭示某种促进单词学习因素的相对重要性,也不能从中构建计算模型、为计算机模型能获得像人一样的学习能力提供指导。

如果一个模型能够通过孩子的眼睛和耳朵感知世界,那么它是否像解释人类词汇学习能力的联想学习理论一样,能够仅通过基于物体表征的联想学习,理解并整合物体的形体和语义呢?或者,它是否需要借助其他的认知能力,比如归纳偏置(inductive biases),来启动这种能力呢?

为了得到这些问题的答案,来自纽约大学的研究者们对最简单的词汇学习理论进行了前所未有的测试:他们给一个婴儿戴上了头戴式摄像机,并检查模型是否能够从这部摄像机的视频记录中学习到单词与其视觉所指对象之间的映射关系。

儿童ai智能培训

戴上摄像机的是来自澳大利亚的 Sam,从 6 个月大到大约 2 岁,他每周头戴摄像机两小时(约占清醒时间的 1%)。

研究团队根据 Sam 的视频建立了 SAYCam-S 数据集。他们从中选取了 61 个小时的录像,其中包含 60 万张视频帧与 3.75 万段经过转写的录音,记录了大约 25 万个单词实例以及对应的图像。这些图像是 Sam 在玩耍、阅读和进食等活动期间拍摄的。

研究团队根据这些数据来训练神经网络,并得到了儿童视角对比学习模型 CVCL。CVCL 采用了对比学习的技术,以学习哪些图像和文本经常一起出现,哪些不会,从而获得预测某些词汇(如 “球” 和 “碗”)所指代图像的能力。

研究发现,CVCL 可以从一个孩子有限的经验片段中充分学习多模态表示。CVCL 能够将一系列日常词汇与分类任务中相应的视觉所指对象匹配起来,大规模对齐视觉和语言概念,并将此能力泛化到训练中未见过的新例子中。该研究表明,多模态表征学习与领域通用的联想学习机制相结合,能够为计算机学习单词带来突破。

具体来说,研究者根据多模态模型研究的最新进展设计了 CVCL。CVCL 整合了表示学习和联想学习,用一个对比目标来协调视觉编码器和语言编码器两个神经网络。

如图 1 所示,对比目标以自我监督的方式进行训练(即只使用儿童视角的记录,不使用外部标注),模型将目标在视频帧和语言片段共同出现的情况转化为向量提取出来,将其视为正面例子,同时将不共同出现的转化成向量分离出来,视为隐含的负面例子。

提取到正面例子后,CVCL 将这些时间向量转换为学习和调整多模态表征的学习信号。这种方法既不需要对词义进行限制,也不需要预先列出可能的视觉所指对象,能从婴儿记录的视频中恢复许多基本的单词与其视觉所指对象的组合。

评估 CVCL 获得的词汇

对应视觉所指对象的结果

训练完成后,研究团队评估了 CVCL 以及各种类似的模型学习到的单词 - 视觉所指对象组合的质量。根据一种针对儿童的常见测试,研究团队向模型提示了一个目标类别标签,让模型根据四个候选图像与标签的余弦相似度中选择相应的视觉所指对象。

图 2A 显示了标签 S 的测试结果,总体而言,CVCL 的分类准确率为 61.6%。图 2D 显示了模型在不同标签中的具体结果,在 22 个概念中,CVCL 对 11 个概念的判断与 CLIP 相差不到 5%。但 CLIP 训练所用的数据量(互联网的 4 亿个图像文本对)远超于 CVCL。为了解决分类重叠等潜在问题,研究团队还手动筛选出了子集进行了后续评估。

为了确定 CVCL 捕捉单词含义能力的上限和下限,研究团队还将其与类似模型进行了实验。为了测试模型将语言和视觉信息对应起来的能力,研究团队将原数据集中共同出现目标物体的视频帧和录音打乱,重新训练了一个模型的变体 CVCL-Shuffled。被打乱后的模型表现不佳,这显示了视觉和语言信息共现对模型学习的关键作用。

为了测试视觉嵌入的有效性,研究者在训练过程中随机冻结了 CVCL 的视觉编码器。尽管模型掌握了如 沙子 和 汽车 等少数概念,但如图 2D 处所示,模型的成绩再次大幅下降(M = 38.0%)。

研究者比较了 CVCL 与基于其他数据或 Oracle 训练数据的 AI 模型,其他模型的训练数据超出了儿童词汇的范围。CLIP 的准确率达 66.7%,比 CVCL 高出 5.1%,这得益于 CLIP 更理解少数单词的含义如厨房、玩具和篮子。

通过以上测试,可见当在一定范围内测试时,CVCL 的性能可以与基于互联网规模数据训练的模型相当。

此外,研究者测试了模型是否能独立对单词进行分类,而不是根据某些引导儿童的句子得出了判断。他们在初始化的预训练编码器上对线性分类器进行拟合得到了一个 Linear Probe 模型,新模型准确率达 81.6% ,说明 CVCL 具有独立判断能力。

研究团队量化了在对话中自然出现的单词相对直接标记示例对模型训练的价值。如图 2B 所示,他们使用更少的人工标注数据(使用打过标签数据的 10% 和 1%)训练了两个 Linear Probe 模型,测试结果如下表所示。

减少了人工标注数据的 Linear Probe 模型,分类准确度分别下降到了 77.2% 和 65.9%。使用了 1% 的标注示例的模型性能略好于 CVCL。通过比较,可以保守估计一个人工标注的至少相当于来自自然语言的七个示例。不过,来自自然语言的数据能更加灵活、更准确地表示儿童学习的内容,并且它可以容纳无限数量的视觉概念。

为了研究是否有其他因素影响了单词 - 视觉所指对象组合的可学习性,研究团队还训练了 CVCL 模型的其他变体以作评估。他们改变了模型结构或训练过程的各个方面,但没有一个变体的表现优于 CVCL 本身。

综上所述,研究结果表明,人类最初习得的的单词-视觉所指对象组合可以从 10 到 100 个自然出现的单词-视觉所指对象组合中获得。

泛化至全新的视觉实例

为了测试 CVCL 的泛化能力,研究团队在 Konkle Objects 数据集上进行了实验。

从研究婴儿语言学习的实验中获得了灵感,研究团队为 CVCL 提供了 64 个额外的在白色背景上的单个物体图像,其对应的单词都在 CVCL 的词汇表中。这个实验使得研究团队能够检查 CVCL 学习的单词是否能成功泛化到未见过的物体中。

如图 3A 所示,CVCL 具有一定的泛化能力,在 64 个物体中有 16 个得分高于 50%(正确),另外 42 个概念得分高于 25%(偶然),整体准确率为 34.7%。

此外,两个 CVCL 的模型变体都接近偶然准确率(CVCL-Shuffled 和 CVCL-Random Features 模型的准确率分别为 25.6% 和 23.4%),而其最佳表现都接近目前 SOTA 方法(CLIP 和 Linear Probe 模型的准确率分别为 99.4% 和 90.7%)。

这些结果表明了 CVCL 的多模态表征如何允许分布之外的泛化 —— 与该能力其他更大规模的演示一致。为了说明这次评估所需的视觉泛化的程度,图 3B 展示了嵌入在话语中的单词的一些自然训练实例(从孩子的视角),与用于评估的新颖测试图像相匹配(以及它们的分类准确度)。此外,这次评估与经典婴儿词汇学习实验中呈现的刺激类型非常相似,这表明在实验室外获得的表现足以解释婴儿如何将实验室内的视觉刺激泛化到新的视觉刺激。

多模态表征的组织结构

最后,研究者介绍了 CVCL 中学习到的多模态表征结构的三个分析家族。

首先探索的问题是,CVCL 的视觉和语言概念系统在多大程度上是一致的。例如,如果汽车的视觉和词嵌入都独立地更类似于道路而不是球,将表明良好的多模态对齐。

使用 Labeled-S 中的 22 个概念,研究者通过随机抽取 100 个注释帧,提取其图像嵌入并跨帧平均计算每个概念的视觉原型。他们还检索了每个概念相应的词嵌入。接下来,计算这些嵌入之间的所有余弦相似度(包括模态内和模态间)并使用 t - 分布随机邻居嵌入(t-SNE)可视化它们之间的关系,如图 4A 和 B 所示。在图 4A 中,虚线表示每个概念相应的视觉质心和词嵌入之间的距离。

婴儿训练视频

国美电器双十一有活动吗

由于这些跨模态距离中的许多都很小,研究者检查了概念之间的模态内相似性(通过余弦)是否与视觉和语言相关,发现了概念对齐的显著程度(相关系数 r = 0.37,p < 0.001)。

这些关系不适用于 CVCL 的两个下界中的任何一个(图 S4)。此外,对齐距离也与分类性能呈强烈负相关(r = -0.65,p = 0.001),一些最不准确的类别表现出各自视觉原型和词嵌入之间的最大距离。图 4B 展示了每个概念的带标签图像嵌入的子集,强调不同的视觉概念在示例的紧密聚类程度方面存在差异。通过将视觉变化视为概念视觉嵌入与其视觉原型之间的平均欧几里得距离,研究者还发现与分类性能的强烈负相关(r = -0.48,p = 0.025),这表明 CVCL 在处理手和玩具等单词参照映射时的难度与它们的视觉变化有关,与紧密聚类的概念如汽车和婴儿床相比。

接下来,研究者可视化了在 CVCL 中不同的词嵌入如何与图像嵌入相互作用(图 4C)。检查三个不同的概念,他们观察到模型预测与特定词嵌入最相似的图像(以绿色显示)与每个类别的真实标注图像集(以蓝色显示)非常接近,完整概念集显示在图 S6 中。研究者发现 CVCL 学习将不同视觉相似的项目集合表示为一个概念的不同子簇,尽管每个词只使用一个向量。例如,楼梯的词嵌入最强烈地激活两个独立的集群,分别代表室内和室外楼梯,而拼图产生另外两个集群,代表字母和动物拼图。以前的概念学习心理理论通常需要明确、内置的机制来捕捉概念内部的子结构,但在 CVCL 中,我们发现多簇表示通过对比学习隐式地出现。

研究者还定性检查了 CVCL 定位指代的能力。对于给定的图像,通过应用 Grad-CAM 获得一个注意力图,通过计算最终卷积层特征图的加权和(使用基于图像文本余弦相似度梯度相对于特征图的空域平均值的权重),突出显示与目标类别最相关的图像区域。研究者可以将此注意力图叠加在图像上,并检查指代的位置与注意力图之间的任何对应关系。

图 5 展示了四个概念中多个注意力图的示例。对于某些类别,CVCL 的注意力图提供了物体定位的证据:注意力图中最高激活的区域紧密跟踪指代的定位。

更多研究细节,可参考原论文。


返回网站首页

本文评论
鳄鱼有没有灭绝「鳄鱼独居16年产子 科学家:濒临灭绝物种的生存策略」
6月29日消息,美国科学家近日发现一条18岁鳄鱼在哥斯达黎加动物园中独居了约16年,下了14枚蛋,竟然有7枚是可以繁殖的,其中一个虽然没有成活,但已经有完全成型的鳄鱼胚胎。oppo ren...
日期:06-30
消息称苹果公司发明iPhone屏幕和Touch ID的高管将离职_苹果公司的创始人被戏称为什么
**划重点:**免费去照片水印的软件有哪些1. 三星fold铰链松动...
日期:12-07
威马汽车W6三款车型涨价 10-12月每月上调2000元_威马w6落地价
  财联社10月1日电,威马汽车10月1日在官微宣布,受上游原材料价格上涨等综合因素,将上调在售车型威马W6的价格。此次价格调整包括“NEX探索版 520KM”“PRO全能版 520KM”“AC...
日期:10-03
QQ影像HD领跑iPad轻生活 随心涂鸦更好玩
  现代生活,时尚休闲是永恒的话题,而iPad作为时尚的“急先锋”,一直深受用户的追捧和欢迎。QQ影像HD作为一款专为iPad用户打造的免费图片编辑软件,为用户带来简单有趣的图片...
日期:07-23
优惠289元!海南免税店版iPhone 14 Plus开卖_海南免税店苹果手机价格
大家注意啦!现在海南免税店版iPhone 14 Plus开卖了,最多可便宜289元。根据海南免税店发布的消息,iPhone 14 Plus手机128GB、256GB和512GB三个版本的价格分别是6790元、7665元...
日期:10-11
微软 Win11 Canary 预览版 25381.1200 发布「window11最新预览版」
IT之家 6 月 7 日消息,微软今天面向 Canary 频道发布了 Windows 11 Build 25381.1200 小型服务更新,具体补丁为 (KB5027849)。美国火箭spacex发射Windows Insider Program 官...
日期:06-07
阿里巴巴拟分拆菜鸟在港交所独立上市
通信世界网消息(CWW)今日,阿里巴巴在港交所发布公告,公司拟分拆菜鸟于香港联交所主板独立上市。福特mustang mach E根据公告,拟议分拆完成后,公司将继续持有菜鸟50%以上的股份,菜鸟...
日期:09-27
iQOO Neo7 SE 将于 12 月 2 日正式发布:首发联发科天玑 8200「iqoo neo7发布会」
11月25日消息:iQOO 官方今日正式宣布,iQOO Neo7SE 新品将于12月2日14:30发布,即与 iQOO11系列一同亮相,首发搭载联发科天玑8200芯片,支持120W 快充,号称「比快更强」。Win11安全...
日期:11-27
可拆卸电池?苹果:反人类 iPhone永远不会_苹果可拆卸电池手机
可拆解电池手机才是未来,但苹果看来,iPhone至少现在还不会还原设计,2007年乔布斯带着第一代iPhone进入全世界的视野里,不可拆卸电池在当时是那么的另类,但最终成为了主流。欧洲理...
日期:07-15
美团将于8月26日公布2022年第二季度财报_美团2018年股价
招行快递优惠iqoo z5是lcd 查看最新行情   讯 8月16日下午消息,美团(香港联交所股份代号03690)今日宣布该公司将于2022年8月26日闭市后公布其截至2022年6...
日期:08-21
网络诈骗钓鱼_10万钓鱼网站专骗“小白” 9成网民遇过网络钓鱼
  上“淘宝网”购物,货款被骗了个精光;上红十字会网站捐款,爱心款却进了骗子的口袋……20日,中国反钓鱼网站联盟发布最新月报,称越来越多的钓鱼网站在网上布下重重陷阱,以各种...
日期:07-29
马斯克仍致力于推进推特生成式 AI 项目 已花费数千万美元购买 GPU_马斯克推特doge
4月12日消息:根据周二的一篇 Insider 报道,尽管马斯克主张全行业停止人工智能培训,但他在推特启动了一个重大的人工智能项目。该项目涉及大型语言模型 (LLM),推特已购买了约 1...
日期:04-12
三星明年旗舰机确定!三星S23系列价格十分诱人!_三星s30+上市时间
三星今年的策略更加激进,虽然前几年的表现较为一般,但今年新机进度明显得到了快速提升,并且新机的设计也更加激进。从传统的全面屏到创新的折叠屏,三星的各类高端旗舰机可谓是全...
日期:09-23
ps5上盖「「多种新配色可选-索尼PS5主机盖、手柄外观曝光」」
来源:中关村在线校园贷创始人罗敏华为的太子爷今天早上,索尼在其State of Play直播节目中展示了三款新颜色的DualSense手柄和PS5主机盖。这三种配色灵感来自于地球深处美丽的...
日期:09-15
13寸笔记本电脑推荐「13寸笔记本电脑性价比」
现今的电脑市场上,13寸笔记本电脑逐渐成为主流,这类笔记本电脑携带方便,轻便易携,高效省电,在商务、学习、娱乐等场合均有广泛的适用性。那么,在如此众多的品牌和型号中,该如何选择...
日期:05-30
​中国绿色算力大会将于7月1日至3日在呼和浩特市举办
​中国绿色算力大会将于7月1日至3日在呼和浩特市举办 通信产业网|2023-06-28 16:33:18作者:通文来源:通信产业网私有云盘安全吗【通信产业网讯】6月26日上午,“绿算赋能 青城论...
日期:06-28
领英app在哪里设置中英文「领英将关闭中文求职平台」
领英中文求职平台领英中国在运营不到半年后,将于2023年8月9日起正式停止服务。linkedin将继续通过其人才和营销解决方案以及将于今年晚些时候在中国大陆推出的linkedinlearni...
日期:05-09
特斯拉已暂停在德国工厂的电池生产 或至少推迟到2024年「特斯拉电池工厂产能」
10月15日消息:据德国《商报》援引专家消息称,特斯拉由于技术问题,已经暂停了在德国柏林郊外格林海德工厂的电池生产计划。微软surfacepro和book目前该地只保留了电极方面的研...
日期:10-18
划时代产品!特斯拉新款小型电动汽车公布 目标销量4200万辆_特斯拉小型新能源汽车
特斯拉于当地时间4月5日发布其可持续性能源发展宏图计划”第三篇章(Master Plan Part 3)的完整文件,透露了新款小型电动汽车的信息。其中透露了特斯拉车型的战略规划,而备受期待...
日期:04-06
2023年旗舰手机教科书 一加Ace 2亮相
今天下午2:30,一加Ace 2亮相。在发布会上,一加科技李杰称其为2023年旗舰手机教科书”。李杰表示,一加Ace 2在各个方面的体验,都是同档位产品中前所未见的。从来没有人在这个价位...
日期:02-07