您的位置:首页 > 互联网

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

发布时间:2024-03-05 00:21:16  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。

没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。

但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,大视频模型也许能够像世界模型一样,真正的做到理解我们身处的这个世界。

论文地址:https://arxiv.org/abs/2402.17139

在作者看来,视频生成将彻底改变物理世界的决策,就像语言模型如何改变数字世界一样。

研究人员认为,与文本类似,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。

例如,经典的计算机视觉任务可以被视为下一代帧生成任务(next-frame generation task)。

模型可以通过生成操作视频(例如如何制作寿司)来回答人们的问题,这可能比文本响应更直观。

视觉和算法推理也可以作为下一帧/视频生成任务。

视频也可以统一不同实体(embodiment)的观察空间(observation space),因此可以使用单个视频生成模型为不同机器人生成视觉执行计划:

而且就像谷歌刚刚发布的世界生成模型Genie一样,视频生成也是复杂游戏的真实模拟器,可以与基于模型的规划相结合,或者用于创建游戏。

生成视频模拟器对于优化科学和工程领域的控制输入也很有用,在这些领域可以收集大量视频数据,但底层的物理动力学很难明确表达(例如,云运动、与软物体的交互)。

预测下一帧,会像预测下一个字那样改变世界

过去几年,从互联网文本数据集训练大语言模型(LLMs)的工作取得了巨大进展。

LLM在各种任务上的出色表现让人不禁想把人工智能的议程缩减为扩大这些系统的规模。

然而,大语言模型上取得的突破似乎也开始面临了很多的局限。

首先,可公开获取的文本数据的数量正变得越来越大。这将成为进一步扩展的瓶颈。

其次,也许更重要的是,仅靠自然语言可能不足以描述所有智能行为,也无法捕捉我们所处物理世界的所有信息(例如,想象一下仅用语言教人如何打结)。

虽然语言是描述高层次抽象概念的强大工具,但它并不总是足以捕捉物理世界的所有细节。

值得庆幸的是,互联网上有丰富的视频数据,仅YouTube上就有超过一万年的连续视频内容,其中包含了大量关于世界的知识信息。

然而,今天在互联网文本或视频数据上训练出来的机器学习模型却表现出了截然不同的能力。LLMs 已经能够处理需要复杂推理、工具使用和决策制定的复杂任务。

相比之下,视频生成模型的探索较少,主要集中在创建供人类消费的娱乐视频。

鉴于语言建模领域正在发生的范式转变,研究人员提出这样一个问题:

我们能否将视频生成模型提升到与语言模型类似的自主代理、模拟环境和计算引擎的水平,从而使机器人、自动驾驶和科学等需要视觉模式的应用能够更直接地受益于互联网视觉知识和预训练视频模型。

研究人员认为视频生成对于物理世界的意义就如同语言模型对于数字世界的意义。

为了得出这一观点,我们首先确定了使语言模型能够解决许多现实世界任务的关键组成部分:(1) 能够从互联网吸收广泛信息的统一表示法(即文本)、

(二) 统一的接口(即文本生成),通过它可以将不同的任务表达为生成建模,以及

(三) 语言模型能与外部环境(如人类、工具和其他模型)交互,根据外部反馈采取相应行动和优化决策,如通过人类反馈强化学习、规划、搜索(姚等人,2023年)和优化等技术。

从语言模型的这三个方面出发,研究人员发现:

(1) 视频可以作为一种统一的表征,吸收物理世界的广泛信息;

(二) 视频生成模型可以表达或支持计算机视觉、嵌入式人工智能和科学领域的各种任务;

(三) 视频生成作为一种预训练目标,为大型视觉模型、行为模型和世界模型引入了互联网规模的监督,从而可以提取动作、模拟环境交互和优化决策。

为了进一步说明视频生成如何对现实世界的应用产生深远影响,他们深入分析通过指令调整、上下文学习、规划和强化学习(RL)等技术,在游戏、机器人、自动驾驶和科学等领域将视频生成用作任务求解器、问题解答、策略/代理和环境模拟器。

视频生成的前提设置

研究人员将视频片段表示为一系列图像帧 x = (x0, ..., x t )。图像本身可被视为具有单帧 x = (x0, ) 的特殊视频。条件视频生成模型是条件概率 p(x|c),其中 c 是条件变量。条件概率 p(x | c) 通常由自回归模型、扩散模型或掩蔽Transformer模型进行因子化。

根据不同的因式分解,p(x | c)的采样要么对应于连续预测图像(斑块),要么对应于迭代预测所有帧(x0,...,x t )。

根据条件变量 c 的内容,条件视频生成可以达到不同的目的。

统一表征法和任务接口

在本节中,作者首先介绍了视频是如何作为一种统一的表征,从互联网中捕捉各种类型的信息,从而形成广泛的知识。

然后,讨论如何将计算机视觉和人工智能中的各种任务表述为条件视频生成问题,从而为现实世界中的视频生成决策提供基础。

作为信息统一表征的视频

虽然互联网文本数据通过大型语言模型为数字/知识世界提供了很多价值,但文本更适合捕捉高级抽象概念,而不是物理世界的低级细节。

研究人员列举几类难以用文本表达,但可以通过视频轻松捕捉的信息。

-视觉和空间信息:这包括视觉细节(如颜色、形状、纹理、光照效果)和空间细节(如物体在空间中的排列方式、相对位置、距离、方向和三维信息)。

与文本格式相比,这些信息自然是以图像/视频格式存在的。

-物理和动力学:这包括物体和环境如何在物理上相互作用的细节,如碰撞、操作和其他受物理规律影响的运动。

虽然文字可以描述高层次的运动(如 "一辆汽车在街道上行驶"),但往往不足以捕捉低层次的细节,如施加在车辆上的扭矩和摩擦力。视频可以隐含地捕捉到这些信息。

-行为和动作信息:这包括人类行为和代理动作等信息,描述了执行任务(如如何组装一件家具)的低层次细节。

与精确的动作和运动等细节信息相比,文本大多能捕捉到如何执行任务的高级描述。

为什么是视频?

有人可能会问,即使文本不足以捕捉上述信息,为什么还要用视频呢?

视频除了存在于互联网规模之外,还可以为人类所解读(类似于文本),因此可以方便地进行调试、交互和安全推测。

此外,视频是一种灵活的表征方式,可以表征不同空间和时间分辨率的信息,例如以埃级(10-10m)运动的原子和以每秒万亿帧速度运动的光。

作为统一任务接口的视频生成

除了能够吸收广泛信息的统一表征外,研究人员还从语言建模中看到,需要一个统一的任务接口,通过它可以使用单一目标(如下一个标记预测)来表达不同的任务。

同时,正是信息表征(如文本)和任务接口(如文本生成)之间的一致性,使得广泛的知识能够转移到特定任务的决策中。

经典计算机视觉任务

在自然语言处理中,有许多任务(如机器翻译、文本摘要、问题解答、情感分析、命名实体识别、语音部分标记、文本分类等)都是视觉任务。

文本分类、对话系统,传统上被视为不同的任务,但现在都统一到了语言建模的范畴内。

这使得不同任务之间的通用性和知识共享得以加强。

同样,计算机视觉也有一系列广泛的任务,包括语义分割、深度估计、表面法线估计、姿态估计、边缘检测和物体跟踪。

最近的研究表明,可以将不同的视觉任务转换成上图所示的视频生成任务,而且这种解决视觉任务的统一方法可以随着模型大小、数据大小和上下文长度的增加而扩展。

将视觉任务转换为视频生成任务一般涉及以下步骤:

(1) 将任务的输入和输出(如分割图、深度图)结构化到统一的图像/视频空间中;

(二) 对图像帧重新排序,使输入图像后跟有特定任务的预期输出图像(如常规输入图像后跟有深度图);

(三) 通过提供输入-输出对示例作为条件视频生成模型的输入,利用上下文学习来指定所需的任务。

视频即答案

在传统的视觉问题解答(VQA). 随着视频生成技术的发展,一种新颖的任务是将视频作为答案,例如,在回答 如何制作折纸飞机 时生成视频。

与语言模型可以对文本中的人类询问生成定制回复类似,视频模型也可以对具有大量低级细节的如何操作问题生成定制回复。

对于人类来说,这样的视频回答可能比文本回答更受欢迎。

在上图中,研究人员展示了由文本到视频模型生成的视频,这些视频是对一组 如何做 问题的回答。

此外,还可以考虑以初始帧为生成条件,在用户特定场景中合成视频答案。

尽管有如此宏大的前景,但当今文本到视频模型合成的视频一般都太短/太简单,没有足够的信息来完全回答用户的问题。

合成视频帧以回答用户问题的问题与使用语言模型进行规划有相似之处,人们可以利用语言模型或视觉语言模型将高层次目标(如如何制作寿司)分解为具体的子目标(如 首先,将米饭放在滚动垫上),并为每个子目标合成计划,同时验证合成计划的合理性。

视觉推理和思维链

有了统一的信息表征和统一的任务界面,语言模型中就出现了推理,模型可以推导出相关信息,作为解决更复杂问题的中间步骤。

同样,以视频作为统一的表示和任务界面,视频生成也通过预测图像的遮蔽区域显示出视觉推理的早期迹象,如上图所示。

通过生成具有正确辅助线集的视频,下一帧预测是否可用于解决更复杂的几何问题,这将是一个有趣的课题。

在利用下一帧预测进行视觉推理和解决几何问题的基础上,还可以利用以下方法进一步描述推理过程和算法。

具体来说,利用视频描述了广度优先搜索(BFS)算法的执行状态。

在这种情况下,学习生成视频就相当于学习搜索,如上图所示。

虽然图3和图4中的示例可能看起来有些矫揉造作,但它们作为早期指标表明,视频生成作为一种预训练任务,可能会引发类似于语言模型的推理行为,从而揭示了利用视频生成解决复杂推理和算法任务的机会。

作为统一状态-行动空间的视频

视频生成可以吸收广泛的知识并描述不同的视觉任务。

研究人员将通过提供体现式人工智能中使用视频作为统一表征和任务界面的具体实例来进一步支持这一观点。

鼠标手写板

数据碎片化是体现式人工智能长期面临的挑战之一,在这种情况下,一个机器人在执行一组任务时收集的数据集很难用于不同机器人或不同任务的学习。

跨机器人和跨任务知识共享的主要困难在于,每种类型的机器人和任务都有不同的状态-行动空间。为了解决这一难题,可以使用像素空间作为跨任务和环境的统一状态行动空间。

在这一框架下,可将机器人规划视为条件视频生成问题,从而受益于互联网预训练视频生成模型。

大多数现有工作都是为每个机器人训练一个视频生成模型,这削弱了将视频作为统一的状态-动作空间用于体现式学习的潜在优势。

在上图中提供了在 Open X-Embodiment 数据集 之前和新生成的视频计划看起来都非常逼真,并成功完成了指定任务。

视频生成即模拟

视频生成技术不仅能解决前文提到的众多任务,还能够在另一个重要领域发挥作用——模拟各种系统和过程的视觉效果,进而根据模拟结果优化系统的控制策略。

这一能力对于那些能够收集到大量视频数据,但难以精确描述底层物理动态的应用场景尤为重要,如云层的流动、与柔软物体的交互等。

游戏环境的生成

多年来,游戏已成为测试AI算法的理想平台。举个例子,街机学习环境(Arcade Learning Environment)推动了深度Q学习技术的发展,这一技术成功让AI智能体首次在Atari游戏中达到了人类的水平。

同样的,我们可以通过与游戏引擎中的真实模拟结果进行对比,来验证生成式模拟器的质量。

- 模拟复杂游戏环境

通过动作条件下的视频生成技术,可以模拟出像Minecraft这类复杂电脑游戏的环境动态。

基于此,研究人员提出了一个能够根据以往的游戏进程预测未来的动作和游戏状态的Transformer模型。

游戏中的观察结果和玩家动作都被转化为了Token,这样就把预测下一步动作简化为了预测下一个Token。

值得注意的是,在这种情况下,模型既可以作为世界模型,也可以作为行动策略。

如图6所示,给定一个以行动结束的观察和行动交替序列,模型就能推断出下一个观察结果(世界模型);给定一个以观察结束的类似序列,模型就能推断出下一个要采取的行动(策略)。

借助这种策略和动态分析骨干,还可以应用基于模型的强化学习算法,如Dyna、Dreamer和MuZero,来进一步优化策略。

- 创造新型游戏环境

在游戏AI领域,程序化创造新型游戏内容和关卡是一个热门研究方向,而这也已被证实对训练和评价强化学习(RL)智能体非常有用。

如图7所示,通过学习大规模互联网上未经标注的游戏数据中的潜动作,然后训练一个可控制动作的视频模型,可以实现从一张提示图像生成无限可能的多样化互动环境。

虽然这项工作还处于探索阶段,但在未来,我们或许可以通过集成学习到的奖励模型,让RL智能体在完全由生成模型创造的游戏环境中进行训练。

机器人与自动驾驶

模拟SE(三)动作空间是机器人学习领域的一大挑战,尤其体现在如何将在虚拟模拟器中训练的策略成功应用到真实机器人上的问题。

此前的研究成功地在真实机器人的视频数据上,针对Language Table环境,学习了一个基于动作的下一帧预测模型,并采用了一个简单的笛卡尔(Cartesian)动作空间。

如图8所示,可以看到,下一帧预测能够预测出SE(三)空间中更为通用的末端执行器动作所产生的视觉效果。

生成式SE(三)模拟器的一个直接应用是评估机器人策略,这在涉及真实机器人评估的安全考虑时特别重要。

除了评估,此前的研究还在Language Table环境中使用来自生成式模拟器的rollouts训练了强化学习(RL)策略。

下一个步骤可能是,使用Dyna式算法并结合模拟的演示和真实环境的数据来学习策略。

在这种情况下,当策略在执行时,真实世界的视频会被收集起来,为生成式模拟器提供额外的示范和反馈。

最后,通过在多样化环境中进行视频演示,生成式模拟器能够有效地训练多任务和多环境策略,这在之前是无法实现的,因为通常一个策略一次只能接触到一个真实世界环境。

科学与工程

视频已经成为了跨越众多科学和工程领域的一个统一的表现形式,对医学成像、计算机图像处理、计算流体动力学等领域的研究产生了影响。

在一些情况下,虽然我们可以通过摄像头轻松捕捉到视觉信息,但是很难识别背后的动态系统(比如云的运动,或者电子显微镜下原子的运动)。

而基于控制输入的视频生成模型可以成为一个有效的视觉模拟工具,进而帮助我们得到更优的控制方案。

下图展示了硅原子在碳原子单层上,在电子束的刺激下的动态变化。可以看到,这种生成式模拟器能够准确地在像素层面捕捉硅原子的移动。

除了帮助缩小模拟与现实之间的差距,生成式模拟器还有一个优点是它们的计算成本是固定的,这在传统计算方法无法应对的情况下尤为重要。

总结

总结而言,研究人员认为,视频生成技术在物理世界的作用,就像语言模型在数字世界中的角色一样重要。

团队通过展示视频如何能够像语言模型一样,广泛地表达信息和执行任务来支持这个观点。

并且,从新的角度探讨了视频生成技术的应用,这些应用通过结合推理、场景中的学习、搜索、规划和强化学习等方法,来解决现实世界中的问题。

虽然视频生成模型面临着如虚假生成(幻觉)和泛化能力等挑战,但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台,并最终可能作为一种人工智能大脑,在物理世界中进行思考和行动。

参考资料:

https://arxiv.org/abs/2402.17139


返回网站首页

本文评论
英伟达ceo黄仁勋「真假“英伟达概念股”:A股市场谁才是黄仁勋的真伙伴?」
“英伟达概念股”们与英伟达的合作具体是什么?有多少是真合作,又有多少是蹭热点?ChatGPT热潮席卷全球,AI算力需求与日俱增,算力芯片巨头英伟达迅速成为焦点。5月30日,英伟达盘中市...
日期:06-06
早晨上课的好处「研究发现早晨课越多成绩越差 网友:翘课有理由了」
早课人”即早上八点上课的学习人,大部人大学生的生活作息都是熬夜修仙,作为一个学习人,早课是多么痛彻心扉。索尼psvr游戏演示那么大清早上课,对学生来说到底是利大于弊,还是弊大...
日期:04-03
华为Mate X5开售秒售罄 国外售价高于国内
华为旗下折叠屏手机Mate X5正式开售,起售价为12999元人民币,顶配价格为16999元人民币。该消息一公布,便引来众多网友争相抢购。官方网站等各种渠道的Mate X5几乎在秒内被抢...
日期:09-15
骁龙8 Gen 2将于11月14日发布:跑分有望超120万_2020小米8跑分
iPhone 14发布之后,就看骁龙8 Gen 2了。据多方消息,高通骁龙峰会将在11月14日至11月17日期间举行。按照惯例,高通新一代旗舰手机SoC 骁龙8 Gen2届时将正式发布。与此同时,首批骁...
日期:10-06
openeuler开发者大赛「OpenAI举办首届开发者大会:发布GPT-4Turbo、自定义“GPTs”等服务」
11月7日 消息:在 OpenAI 的 首届开发者大会 DevDay 活动上,OpenAI发布了许多新的模型和开发者产品。同时,OpenAI首席执行官萨姆・奥特曼(Sam Altman)宣布,ChatGPT的周活用户数已...
日期:11-07
15线下广告被吐槽像燃气灶 苹果回应将反馈 iPhone
来源:中关村在线近日,有网友吐槽iPhone 15的线下实体广告设计十分丑陋。上海市市民张女士在地铁站看到了一张大幅海报,上面的三个摄像头被她比作成“燃气灶”。这个发现引起了...
日期:10-16
中国区块链技术和应用白皮书发布时间「信通院发布《区块链白皮书(2023年)》」
通信世界网消息(CWW)过去一年,全球主要国家和地区正加快基于区块链的下一代互联网(Web3.0)战略布局,持续探索新场景新业态,带动区块链技术、应用和产业迎来新发展机遇。区块链通过...
日期:12-07
江西鄱阳湖鱼「鄱阳湖几月无雨:上万斤鱼搁浅 20多人自费转运」
由于鄱阳湖区域已有几个月没有下雨,干旱导致大量的鱼搁浅在岸边。据近日报道,当地有好心民众觉得这么多鱼如果被活活旱死挺可惜,就组织了朋友自费开车将这些鱼成批成批的运到了...
日期:10-22
问界M5开了辅助驾驶追尾 AITO汽车:AEB正常触发 已最大限度减轻碰撞
快科技11月15日消息,据国内媒体报道,日前,一起问界M5的追尾事故在网上曝光。知情人称当时车主打开辅助驾驶功能行驶在道路左侧,接着撞上了道路施工车辆后方拉沥青的挂车。对此,AI...
日期:11-16
曝iQOO11S将于7月8日发布,搭载骁龙8Gen2超频版_iqoo 11
在联发科天玑9200+处理器发布之后,相关的新机成为了目前Android旗舰手机市场性能榜首,吸引了许多网友的关注。另一方面,联发科的老对手高通将会如何应对这个情况,也是不少网友...
日期:06-13
为了让消费者不再交激光电视的智商税,TCL花了200万_oled电视交智商税
  TCL与海信的官司风波,近日有了结果,TCL被判赔偿200万元。只看官司结果,是海信赢了,但说到这场官司的影响,激光电视却是输得彻底。   从官司结果出来后,网络上一夜间出现了...
日期:07-17
马斯克“高铁计划”泡汤 被改建为员工停车场_马斯克超级高铁进站
凤凰网科技讯 北京时间11月4日消息,据外媒报道,SpaceX 首席执行官埃隆・马斯克(Elon Musk)在加州霍桑市建立的“超级高铁”隧道现已被拆除,并计划将空地改造成SpaceX公司员工的停...
日期:11-12
专家:发展电车一年可节约500亿美元石油进口、这钱拿来干什么不好
中国电动汽车百人会论坛2023”正在进行中,此次主题为推进中国汽车产业现代化。能源基金会(中国)首席执行官兼中国区总裁邹骥出席并演讲,邹骥表示,电动车对空气质量的改善有独特作...
日期:04-01
北京顺义发放500万元电商消费券 先到先得「顺义消费券怎么领」
2月9日 消息:今日,北京市顺义区启动“品顺义·乐生活”顺义电商消费节活动,发放500万元电商消费券,促进当地消费。首批300万元消费券按“先到先得”原则发放。玉米粒怎么剥得快...
日期:02-10
《流浪地球2》官方推出2023张月壤卡 今天是月球“离开”的第一个元宵节
月壤卡是电影《流浪地球2》拍摄月球情节时的土壤道具,官方将其做成了2023张月壤卡,以此纪念在电影中消失”的月亮。官方说道:月球是地球唯一的天然卫星,陪着地球,护着地球。月球...
日期:02-05
特斯拉降价 Model 3焕新版售价降至24.59万元人民币
特斯拉中国官网2024年1月12日公布,Model3焕新版和Model3长续航焕新版的价格分别下调至24.59万元人民币和29.99万元人民币,Model Y的价格也降至25.89万元人民币。2023年9月,特斯...
日期:01-12
希捷放弃开发60TB固态硬盘!将主要精力放在机械硬盘上_希捷 固态
快科技2月12日消息,希捷在2016年的Flash Memory Summit闪存峰会上,曾展出过一款容量高达60TB的固态硬盘。google colab使用世界杯商机这款硬盘搭载了来自美光的3D闪存,采用双端...
日期:02-13
福建浙江多地明确:不强制学生穿校服 保暖最重要_学校应不应该强制学生穿校服
多地低温天气下,广东、福建、浙江等中东部地区纷纷强调保暖重要,不强制学生穿校服。厦门市教育局和湖里区教育局提醒学生做好防寒保暖,不要求统一穿校服。在福建泉州和漳州,教育...
日期:12-22
iPhone 14 Pro系列国内日均卖出10万台「iPhone12 pro美国售价」
10月29日 行业销售数据显示,10 月 24 日 “双十一” 预售首日,仅 iPhone 14 Pro 和 Pro Max 销量就超过 13 万台。据《晚点财经》报道,一家行业调研机构给出的数据显示,10 月第...
日期:11-03
苹果或需支付50亿英镑赔偿金「苹果已付清12亿卢布反垄断罚款 因强制使用苹果支付系统」
苹果公司在 1 月 19 日缴纳了俄罗斯联邦反垄断局的 12 亿卢布罚款,这一消息于 1 月 22 日由该局公布。该局在 2022 年 7 月认定美国苹果公司违反了俄罗斯反垄断法,并在 2023...
日期:01-23