您的位置:首页 > 互联网

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

发布时间:2023-06-14 21:45:07  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

苹果12支持usbA快充吗

【新智元导读】LeCun的世界模型终于来了,可谓是众望所归。既然大模型已经学会了理解世界、像人一样推理,是不是AGI也不远了?

长久以来,LeCun理想中的AI,一直是通往人类水平的AI,为此他提出了「世界模型」的构想。

而最近,LeCun在公开演讲中,再次批评了GPT大模型:根据概率生成自回归的大模型,根本无法破除幻觉难题。甚至直接发出断言:GPT模型活不过5年。

今天,LeCun终于离自己的梦想又近了一步!

Meta震撼发布了一个「类人」的人工智能模型 I-JEPA,它可以比现有模型更准确地分析和完成缺失的图像。

图片

论文地址:https://arxiv.org/abs/2301.08243

划重点:I-JEPA填充缺失片段时,用的就是有关世界的背景知识!而不是像其他模型那样,仅仅通过查看附近的像素。

距离提出「世界模型」概念一年多,眼看着LeCun就要实现自己的星辰大海了。

今天,训练代码和模型已经开源。论文将于下周在CVPR2023发表。

LeCun的世界模型来了

即使是如今最先进的AI系统,也始终无法突破一些关键限制。

为了突破这层桎梏,Meta的首席AI科学家Yann LeCun提出了一种新的架构。

图片

他的愿景是,创造出一个机器,让它能够学习世界如何运作的内部模型,这样它就可以更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。

今天Meta推出的图像联合嵌入预测架构I-JEPA模型,是史上第一个基于LeCun世界模型愿景关键部分的AI模型。

I-JEPA就是通过创建外部世界的内部模型来学习。在补全图像的过程中,它比较的是图像的抽象表征,而不是比较像素本身。

在多个计算机视觉任务上,I-JEPA都表现出了强大的性能,并且比其他广泛使用的CV模型计算效率高得多。

图片

ImageNet线性评估:I-JEPA方法在预训练期间不使用任何视觉数据增强来学习语义图像表征,使用的计算量比其他方法更少

I-JEPA学习的表示形式可以用于许多不同的应用,而无需进行大量的微调。

比如,研究者在72小时内使用16个A100GPU,就训练出了一个632M参数的视觉Transformer模型。

在ImageNet上的low-shot分类任务上,它达到了SOTA,每个类降低到12个标记示例。

而其他方法通常需要2到10倍的GPU小时,并且使用相同数量的数据进行训练时,错误率也更高。

通过自监督学习获取常识

通常,人类只要通过被动观察,就能学习到有关世界的大量背景知识。

根据推测,似乎这种常识信息正是实现智能行为的关键,比如获取新概念、基础和计划的有效样本。

图片

将概念学习建模为学习一个线性读数

Meta在I-JEPA(以及更普遍的联合嵌入预测架构JEPA模型)上的工作,正是基于这样一个事实。

研究者尝试的是,设计出一种学习算法,捕捉关于世界的常识背景知识,然后将其编码为算法可以访问的数字表征。

为了达到足够的效率,系统必须以自监督的方式学习这些表征——也就是说,直接从图像或声音等未标记的数据中学习,而不是从手动组合的标记数据集中学习。

在更高的层级上,JEPA旨在根据同一输入(图像或文本)的其他部分的表征,来预测输入的部分表征。

因为它不涉及将图像的多个视图/增强的表征折叠到一个点上,所以JEPA有很大希望能够避免在广泛使用的方法(即基于不变性的预训练)中出现的偏见和问题。

图片

联合嵌入方法可以避免表征崩溃

同时,通过在高度抽象的水平上预测表征,而不是直接预测像素值,JEPA有望能够直接学习有用的表征,同时避免生成方法的局限性,正是基于这个原因,最近才产生了如此多令人兴奋的大语言模型。

相比之下,一般的生成式模型是通过移除或扭曲输入模型的部分内容来学习的。

例如,抹去照片的一部分,或者隐藏文本段落中的某些字,然后试着预测被破坏或丢失的像素或单词。

但这种方法的一个显著缺点是,尽管世界本身是不可预测的,模型却试图填补每一块缺失的信息。

因而,这种方法可能会犯人永远不会犯的错误,因为它们会过于关注不相干的细节,而不是捕捉更高级的可预测的概念。

一个众所周知的例子就是,生成式模型很难生成正确的人手。

在自监督学习的通用架构中,系统会学习捕捉不同输入之间的关系。

它的目标是,将高能量分配给不兼容的输入,将低能量分配给兼容的输入。

图片

自监督学习的常见架构

这三种架构的区别是——

(a) 联合嵌入(不变)架构会学习为兼容的输入x、y输出相似的嵌入,为不兼容的输入输出不相似的嵌入。

(b) 生成式架构会学习直接从兼容的信号x重建信号y,使用以附加变量z(可能是潜变量)为条件的解码器网络,以促进重建。

(c) 联合嵌入预测架构学习从兼容信号x中预测信号y的嵌入,使用以附加变量z(可能是潜变量)为条件的预测网络,来促进预测。

联合嵌入预测架构

I-JEPA背后的原理是通过一种更类似于人类理解的抽象表征来预测缺失的信息。

为了引导I-JEPA产生语义表征,其中一个核心设计便是多块掩码策略。

具体而言,团队证明了预测包含语义信息的大块的重要性。这些大块具有足够大的规模,可以涵盖重要的语义特征。

图片

这种策略的优势在于,它能够减少不必要的细节,并提供更高层次的语义理解。

通过关注大块的语义信息,模型可以更好地抓住图像或文本中的重要概念,从而实现更强大的预测能力。

基于图像的联合嵌入预测架构(I-JEPA)使用单个上下文块来预测来自同一图像的表征

其中,上下文编码器是一个视觉Transformer(ViT),它只处理可见的上下文patch。

预测器是一个窄的ViT,它接收上下文编码器的输出,并根据目标的位置token,来预测目标块的表征。

图片

目标表征对应于目标编码器的输出,其权重在每次迭代时,通过对上下文编码器权重的指数移动平均进行更新。

在I-JEPA中,预测器可以被视为一个原始(且受限)的世界模型,它能够利用已知的上下文信息来推断未知区域的内容。

这种能力使得模型能够对静态图像进行推理,从而建立一种对图像中的空间不确定性的理解。

与仅关注像素级细节的方法不同,I-JEPA能够预测未见区域的高层次语义信息,从而更好地捕捉图像的语义内容。

图片

预测器学习建模世界语义的过程

对于每个图像,蓝色框之外的部分被编码并作为上下文提供给预测器。而预测器则输出了代表蓝色框内预期内容的表征。

为了理解模型捕捉的内容,团队训练了一个随机解码器,将I-JEPA预测的表征映射回像素空间,从而展示了在蓝色框内进行预测时模型的输出。

显然,预测器能够识别出应该填充部分的语义信息(狗头顶部、鸟的腿、狼的腿、建筑物的另一侧)。

图片

给定一幅图像,随机采样4个目标块,随机采样一个范围尺度的上下文块,并删除任何重叠的目标块。这种策略下,目标块相对语义化,上下文块信息量大,但很稀疏,因而处理效率高

简而言之,I-JEPA能够学习对象部分的高级表征,而且也不会丢弃它们在图像中的局部位置信息。

更高的效率,更强的性能

在预训练上,I-JEPA的计算更加高效。

首先,它不需要应用更加计算密集的数据增强来生成多个视图,因此不会带来额外的开销。

其次,其中的目标编码器只需对图像的一个视图进行处理,而上下文编码器也只需对上下文块进行处理。

实验证明,I-JEPA能够在不使用人工视图增强的情况下,学习到强大的现成语义表征。

此外,在ImageNet-1K线性探测和半监督评估中,I-JEPA的表现也优于像素重建和token重建方法。

图片

在预训练过程中,以GPU小时数为函数的基准,在ImageNet-1k上进行线性评估的性能

在语义任务上,I-JEPA与之前依赖于人工数据进行增强的预训练方法相比,表现更加出色。

与这些方法相比,I-JEPA在低级视觉任务(如物体计数和深度预测)上实现了更好的性能。

通过使用更简单、更灵活的归纳偏置模型,I-JEPA可以用在更广泛的任务上。

图片

低样本分类准确率:对ImageNet-1k进行半监督评估,使用1%的标签(每个类别大约有12张带标签的图像)

AI向人类智能更进了一步

安卓董事长

I-JEPA展示了架构在学习现成图像表征方面的潜力,而且还不需通过人工制作的知识作为额外的辅助。

推进JEPA以从更丰富的模态中学习更通用的世界模型,将会是一样特别有意义的工作。

例如,从短的上下文中,对视频进行长程的空间和时间预测,并将这些预测基于音频或文本提示进行条件化。

图片

I-JEPA预测器表征的可视化:第一列包含原始图像,第二列包含上下文图像,绿色边界框包含来自预测器输出解码的生成模型的样本。预测器正确捕捉了位置的不确定性,以正确的姿态产生了高级对象的部分,丢弃精确的低级细节和背景信息

团队表示,期待着将JEPA方法扩展到其他领域,如图像-文本配对数据和视频数据。

春晚1亿红包

未来,JEPA模型会在视频理解等任务中可能具有令人兴奋的应用。而这也将是应用和扩展自监督方法来学习世界模型的重要一步。

预训练模型

图片

  • 单GPU训练

在单GPU设置中,实现从main.py开始。

例如,要使用配置configs/in1k_vith14_ep300.yaml在本地计算机上的GPU0、1和2上运行I-JEPA预训练,请输入以下命令:

    pythonmain.py\--fnameconfigs/in1k_vith14_ep300.yaml\--devicescuda:0cuda:1cuda:2

    注意:ViT-H/14配置应在16个A10080G显卡上运行,有效批大小为2048,才能复现结果。

    • 多GPU训练

    在多GPU设置中,实现从main_distributed.py开始,除了解析配置文件外,还允许指定有关分布式训练的详细信息。

    对于分布式训练,需要使用流行的开源submitit工具,并提供SLURM集群的示例。

    例如,要使用configs/in1k_vith14_ep300.yaml中指定的预训练实验配置在16个A10080G显卡上进行预训练,请输入以下命令:

    pythonmain_distributed.py\--fnameconfigs/in1k_vith14_ep300.yaml\--folder$path_to_save_submitit_logs\--partition$slurm_partition\--nodes2--tasks-per-node8\--time1000

    网友评论

    对于LeCun领衔的这项新工作,网友们纷纷表示赞赏。

    中兴智能设备

    真是开创性的工作,吹爆了。自回归模型的继任者就在这里!

    图片

    我相信,联合嵌入架构是人工智能的未来,而不是生成式的。但我就是很好奇,为什么我们不进一步研究多模态(如ImageBind,而不仅仅是文本-图像对),并且用像编码器这样的感知器来代替VIT编码器?

    图片

    很简洁的工作。在我的理解中,它类似于掩蔽自动编码器,但在潜在空间中定义时会丢失功能,而不是输入/像素空间。不过,如果要详细看懂,我还需要更多细节。

    图片

    我的大脑只能看懂论文的10%,但如果I-JEPA真的能创建图3中的目标图像,那就太神奇了,最重要的是:它和AI生成的MMORPG是相关的!

    图片

    这个项目即将开源,网友也对Meta对于开源社区的贡献表示赞赏。

    图片

    参考资料:

    https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/


    返回网站首页

    本文评论
    对话麒麟软件李祥凯:中国操作系统生态迈进3.0时代
    【网易科技5月12日报道】5月11日下午,麒麟操作系统通用软件提质计划正式发布。“应用生态的丰富和多元,从根本上决定了国产操作系统的内生动力和高质量发展。”麒麟软件有限公...
    日期:05-13
    每日优鲜创始人徐正,栽跟头的聪明人_每日优鲜创始人徐正哪里人
    图片来源:视觉中国  原标题:栽跟头的聪明人徐正    记者 |管丢丢 编辑 |文姝琪  徐正一直是被追捧的聪明人。  他拿过奥数比赛一等奖,15岁保送中科大数学系。工作履...
    日期:09-07
    特斯拉第四季度营收243.18亿美元 汽车交付405278辆同比增长31%
    1月26日消息,特斯拉今日公布了2022年第四季度及全年财报。数据显示,特斯拉第四季度营收243.18亿美元,同比增长长37%;净利润37.07亿美元;归属于普通股股东的净利润为36.87亿美元...
    日期:01-26
    苹果的Touch ID可能再也不会出现在iPhone中了「苹果手机尚未开启touch id功能」
    苹果公司考虑为其旗舰iPhone机型恢复Touch ID,但尽管经历了测试,该功能不太可能很快回到其主流智能手机阵容中。从Touch ID到Face ID的转换有其好处,也有其隐患,但用户中仍有一...
    日期:10-05
    业内人士:芯片和组件短缺恐影响工业 PC 制造商出货量(芯片产量不足)
      据业内消息人士透露,在疫情逐步缓解之际,全球客户需求强劲,研华、Ennocon、DFI、艾讯、凌华等中国台湾地区工业 PC(IPC)制造商都看到了创纪录的订单可见性,但某些芯片和组...
    日期:07-17
    多档高校“恋综”登陆视频网站_恋综是什么节目
      《浙大丘比特》节目封面 网易严选618有活动吗   《浙大丘比特》节目截屏 淘宝商品下单返利活动是什么打造高质量产品iot物联网科技轻薄本多大内存够用1499买airpods...
    日期:08-05
    马斯克:希望20年内在火星建造自给自足城市_火星什么时候能居住,马斯克
    华为HMS全球应用创新大赛华硕无畏15轻薄本开学第一课哪个软件可以看直播oppo什么时候换电池便宜   特斯拉和SpaceX公司CEO埃隆·马斯克周末重申,他坚定不移地致力于殖民火...
    日期:08-15
    看天气顺带看新闻:iOS 16.2天气App加入Apple News新闻模块「iPhone播报天气」
    近日,iOS 16.2和iPadOS 16.2迎来新的Beta测试版更新,在新版本中,系统自带的天气App获得了更新。新的天气App整合了苹果自家的Apple News新闻模块,将根据用户目前所处的位置,展示...
    日期:11-08
    福布斯丨用机器人服务员,重新定义「中国火锅」
      近日,全球餐饮机器人行业标杆企业擎朗智能的机器人落地拉斯维加斯的智慧火锅餐厅THE X POT,引起全球权威商业媒体福布斯(Forbes)关注报道。   据悉,THE X Pot智慧火...
    日期:07-15
    从付费会员到会员付费 互联网音娱视频平台相继入局(各个视频平台会员)
      近日,人气小说改编的古装大剧《庆余年》火了,爱奇艺、腾讯视频也乘势面向已购买VIP会员的用户推出了超前点播收费模式——已购买VIP会员的用户,需要额外支付3元/集或50元...
    日期:06-06
    荣耀品牌专场活动火热开启 全线好价新品汇聚京东618「荣耀 专卖」
    如今,消费者选购3C数码产品时呈现出更加理性的消费趋势,除了更低的价格,消费者也希望获得可靠的售后服务保障。为持续升级“多快好省”的体验,京东3C数码携手众多品牌打造专场活...
    日期:06-12
    Pinterest第三季度营收6.85亿美元 同比转盈为亏
      讯 北京时间11月28日凌晨消息,图片共享社交平台Pinterest今日公布了该公司的2022财年第三季度财报。报告显示,Pinterest第三季度营收为6.85亿美元,与去年同期的6.33亿美元...
    日期:10-31
    中国联通宽带网络数字化应用产品通过自智网络智能化分级认证_中国联通智能网管
    通信世界网消息(CWW)近日,AI智胜未来大会暨自智网络中国产业峰会在国家会议中心召开,本次会议旨在联合产业伙伴共同推动“自智网络领航者计划”发展。会上,中国信息通信研究院向...
    日期:06-14
    保时捷全球前9月卖了22万台 中国女车主买的最积极_每卖出一台保时捷
    日前,保时捷官方宣布,2022年前三季度保时捷向全球客户共交付221,512台新车,同比增长2%,Cayenne仍是保时捷最受青睐的车型。iphone14或将升级前置摄像头分地区来看,销量涨幅最大的...
    日期:10-17
    不要再问杀毒软件哪个好了!首选360安全卫士极速版!
    提到弹窗广告,一部分人感觉深恶痛绝苦大仇深,恨不得再也不见;另一部分人却不以为然,觉得广告弹出来立刻关掉不就没事了,不会有什么影响。其实弹窗广告给电脑用户带来的并不是只是...
    日期:05-19
    “科技赋能,铸造精品”全国机电观摩在上海市源深路研发楼项目举办
      5月21日,“科技赋能,铸造精品”全国机电观摩在上海市源深路1111号研发楼项目举办。本次活动由中国安装协会主办,上海安装行业协会、中建八局科技建设有限公司承办,吸引了业...
    日期:06-09
    台积电明年涨价方案遭最大客户苹果拒绝 英伟达意图跟随_台积电涨价手机会涨价吗
    9月28日消息:据中国台湾经济日报报道,半导体市况已反转,对于供应链陆续造成影响,如今传出台积电最大客户苹果拒绝该公司明年涨价的方案。但对于前述客户相关价格消息,台积电不予...
    日期:09-28
    保价争议频发,顺丰终于采取行动了_顺丰保价再惹争议
    被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】 中兴手机axon30发布会 来源:视觉中国   记者 |白...
    日期:09-30
    让你睡得更安心,毛晓彤同款Beko倍科除螨仪!
      https://detail.tmall.com/item.htm?spm=a212k0.12153887.0.0.4e60687du2bUOQ&id=620787333233   我经常会晒被子,因为晒过之后被窝更暖和,但是却发现也有一股难闻的螨...
    日期:07-14
    乐视工资发了吗「乐视回应四天半工作制:薪资福利和奖金都不变」
    1月9日 消息:据中国企业家消息,针对“实行每周四天半工作制”的情况,乐视市场部负责人表示,关于此次工作制的调整,很久以前就在考虑了,包括考虑更灵活的打卡制度。同时,员工正常的...
    日期:01-09