大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权转载发布。

【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为，如果用大语言模型的思路来做大视频模型，能解决很多语言模型不擅长的问题，可能能更进一步接近世界模型。

没人怀疑，OpenAI开年推出的史诗巨作Sora，将改变视频相关领域的内容生态。

但Google DeepMind、UC伯克利和MIT的研究人员更进一步，在他们眼里，大视频模型也许能够像世界模型一样，真正的做到理解我们身处的这个世界。

论文地址:https://arxiv.org/abs/2402.17139

在作者看来，视频生成将彻底改变物理世界的决策，就像语言模型如何改变数字世界一样。

研究人员认为，与文本类似，视频可以作为一个统一的接口，吸收互联网知识并表征不同的任务。

例如，经典的计算机视觉任务可以被视为下一代帧生成任务（next-frame generation task）。

模型可以通过生成操作视频（例如如何制作寿司）来回答人们的问题，这可能比文本响应更直观。

视觉和算法推理也可以作为下一帧/视频生成任务。

视频也可以统一不同实体（embodiment）的观察空间(observation space)，因此可以使用单个视频生成模型为不同机器人生成视觉执行计划:

而且就像谷歌刚刚发布的世界生成模型Genie一样，视频生成也是复杂游戏的真实模拟器，可以与基于模型的规划相结合，或者用于创建游戏。

生成视频模拟器对于优化科学和工程领域的控制输入也很有用，在这些领域可以收集大量视频数据，但底层的物理动力学很难明确表达（例如，云运动、与软物体的交互）。

预测下一帧，会像预测下一个字那样改变世界

过去几年，从互联网文本数据集训练大语言模型（LLMs）的工作取得了巨大进展。

LLM在各种任务上的出色表现让人不禁想把人工智能的议程缩减为扩大这些系统的规模。

然而，大语言模型上取得的突破似乎也开始面临了很多的局限。

首先，可公开获取的文本数据的数量正变得越来越大。这将成为进一步扩展的瓶颈。

其次，也许更重要的是，仅靠自然语言可能不足以描述所有智能行为，也无法捕捉我们所处物理世界的所有信息（例如，想象一下仅用语言教人如何打结）。

虽然语言是描述高层次抽象概念的强大工具，但它并不总是足以捕捉物理世界的所有细节。

值得庆幸的是，互联网上有丰富的视频数据，仅YouTube上就有超过一万年的连续视频内容，其中包含了大量关于世界的知识信息。

然而，今天在互联网文本或视频数据上训练出来的机器学习模型却表现出了截然不同的能力。LLMs 已经能够处理需要复杂推理、工具使用和决策制定的复杂任务。

相比之下，视频生成模型的探索较少，主要集中在创建供人类消费的娱乐视频。

鉴于语言建模领域正在发生的范式转变，研究人员提出这样一个问题:

我们能否将视频生成模型提升到与语言模型类似的自主代理、模拟环境和计算引擎的水平，从而使机器人、自动驾驶和科学等需要视觉模式的应用能够更直接地受益于互联网视觉知识和预训练视频模型。

研究人员认为视频生成对于物理世界的意义就如同语言模型对于数字世界的意义。

为了得出这一观点，我们首先确定了使语言模型能够解决许多现实世界任务的关键组成部分:（1）能够从互联网吸收广泛信息的统一表示法(即文本)、

(二) 统一的接口(即文本生成)，通过它可以将不同的任务表达为生成建模，以及

(三) 语言模型能与外部环境(如人类、工具和其他模型)交互，根据外部反馈采取相应行动和优化决策，如通过人类反馈强化学习、规划、搜索(姚等人，2023年)和优化等技术。

从语言模型的这三个方面出发，研究人员发现:

（1）视频可以作为一种统一的表征，吸收物理世界的广泛信息;

(二) 视频生成模型可以表达或支持计算机视觉、嵌入式人工智能和科学领域的各种任务;

(三) 视频生成作为一种预训练目标，为大型视觉模型、行为模型和世界模型引入了互联网规模的监督，从而可以提取动作、模拟环境交互和优化决策。

为了进一步说明视频生成如何对现实世界的应用产生深远影响，他们深入分析通过指令调整、上下文学习、规划和强化学习（RL）等技术，在游戏、机器人、自动驾驶和科学等领域将视频生成用作任务求解器、问题解答、策略/代理和环境模拟器。

视频生成的前提设置

研究人员将视频片段表示为一系列图像帧 x = （x0， ...， x t ）。图像本身可被视为具有单帧 x = (x0， ) 的特殊视频。条件视频生成模型是条件概率 p(x|c)，其中 c 是条件变量。条件概率 p(x | c) 通常由自回归模型、扩散模型或掩蔽Transformer模型进行因子化。

根据不同的因式分解，p（x | c）的采样要么对应于连续预测图像(斑块)，要么对应于迭代预测所有帧(x0，...，x t )。

根据条件变量 c 的内容，条件视频生成可以达到不同的目的。

统一表征法和任务接口

在本节中，作者首先介绍了视频是如何作为一种统一的表征，从互联网中捕捉各种类型的信息，从而形成广泛的知识。

然后，讨论如何将计算机视觉和人工智能中的各种任务表述为条件视频生成问题，从而为现实世界中的视频生成决策提供基础。

作为信息统一表征的视频

虽然互联网文本数据通过大型语言模型为数字/知识世界提供了很多价值，但文本更适合捕捉高级抽象概念，而不是物理世界的低级细节。

研究人员列举几类难以用文本表达，但可以通过视频轻松捕捉的信息。

-视觉和空间信息:这包括视觉细节（如颜色、形状、纹理、光照效果）和空间细节(如物体在空间中的排列方式、相对位置、距离、方向和三维信息)。

与文本格式相比，这些信息自然是以图像/视频格式存在的。

-物理和动力学:这包括物体和环境如何在物理上相互作用的细节，如碰撞、操作和其他受物理规律影响的运动。

虽然文字可以描述高层次的运动（如 "一辆汽车在街道上行驶"），但往往不足以捕捉低层次的细节，如施加在车辆上的扭矩和摩擦力。视频可以隐含地捕捉到这些信息。

-行为和动作信息:这包括人类行为和代理动作等信息，描述了执行任务（如如何组装一件家具）的低层次细节。

与精确的动作和运动等细节信息相比，文本大多能捕捉到如何执行任务的高级描述。

为什么是视频?

有人可能会问，即使文本不足以捕捉上述信息，为什么还要用视频呢?

视频除了存在于互联网规模之外，还可以为人类所解读（类似于文本），因此可以方便地进行调试、交互和安全推测。

此外，视频是一种灵活的表征方式，可以表征不同空间和时间分辨率的信息，例如以埃级（10-10m）运动的原子和以每秒万亿帧速度运动的光。

作为统一任务接口的视频生成

除了能够吸收广泛信息的统一表征外，研究人员还从语言建模中看到，需要一个统一的任务接口，通过它可以使用单一目标（如下一个标记预测）来表达不同的任务。

同时，正是信息表征（如文本）和任务接口(如文本生成)之间的一致性，使得广泛的知识能够转移到特定任务的决策中。

经典计算机视觉任务

在自然语言处理中，有许多任务（如机器翻译、文本摘要、问题解答、情感分析、命名实体识别、语音部分标记、文本分类等）都是视觉任务。

文本分类、对话系统，传统上被视为不同的任务，但现在都统一到了语言建模的范畴内。

这使得不同任务之间的通用性和知识共享得以加强。

同样，计算机视觉也有一系列广泛的任务，包括语义分割、深度估计、表面法线估计、姿态估计、边缘检测和物体跟踪。

最近的研究表明，可以将不同的视觉任务转换成上图所示的视频生成任务，而且这种解决视觉任务的统一方法可以随着模型大小、数据大小和上下文长度的增加而扩展。

将视觉任务转换为视频生成任务一般涉及以下步骤:

（1）将任务的输入和输出(如分割图、深度图)结构化到统一的图像/视频空间中;

(二) 对图像帧重新排序，使输入图像后跟有特定任务的预期输出图像(如常规输入图像后跟有深度图);

(三) 通过提供输入-输出对示例作为条件视频生成模型的输入，利用上下文学习来指定所需的任务。

视频即答案

在传统的视觉问题解答（VQA）. 随着视频生成技术的发展，一种新颖的任务是将视频作为答案，例如，在回答如何制作折纸飞机时生成视频。

与语言模型可以对文本中的人类询问生成定制回复类似，视频模型也可以对具有大量低级细节的如何操作问题生成定制回复。

对于人类来说，这样的视频回答可能比文本回答更受欢迎。

在上图中，研究人员展示了由文本到视频模型生成的视频，这些视频是对一组如何做问题的回答。

此外，还可以考虑以初始帧为生成条件，在用户特定场景中合成视频答案。

尽管有如此宏大的前景，但当今文本到视频模型合成的视频一般都太短/太简单，没有足够的信息来完全回答用户的问题。

合成视频帧以回答用户问题的问题与使用语言模型进行规划有相似之处，人们可以利用语言模型或视觉语言模型将高层次目标（如如何制作寿司）分解为具体的子目标(如首先，将米饭放在滚动垫上)，并为每个子目标合成计划，同时验证合成计划的合理性。

视觉推理和思维链

有了统一的信息表征和统一的任务界面，语言模型中就出现了推理，模型可以推导出相关信息，作为解决更复杂问题的中间步骤。

同样，以视频作为统一的表示和任务界面，视频生成也通过预测图像的遮蔽区域显示出视觉推理的早期迹象，如上图所示。

通过生成具有正确辅助线集的视频，下一帧预测是否可用于解决更复杂的几何问题，这将是一个有趣的课题。

在利用下一帧预测进行视觉推理和解决几何问题的基础上，还可以利用以下方法进一步描述推理过程和算法。

具体来说，利用视频描述了广度优先搜索（BFS）算法的执行状态。

在这种情况下，学习生成视频就相当于学习搜索，如上图所示。

虽然图3和图4中的示例可能看起来有些矫揉造作，但它们作为早期指标表明，视频生成作为一种预训练任务，可能会引发类似于语言模型的推理行为，从而揭示了利用视频生成解决复杂推理和算法任务的机会。

作为统一状态-行动空间的视频

视频生成可以吸收广泛的知识并描述不同的视觉任务。

研究人员将通过提供体现式人工智能中使用视频作为统一表征和任务界面的具体实例来进一步支持这一观点。

鼠标手写板

数据碎片化是体现式人工智能长期面临的挑战之一，在这种情况下，一个机器人在执行一组任务时收集的数据集很难用于不同机器人或不同任务的学习。

跨机器人和跨任务知识共享的主要困难在于，每种类型的机器人和任务都有不同的状态-行动空间。为了解决这一难题，可以使用像素空间作为跨任务和环境的统一状态行动空间。

在这一框架下，可将机器人规划视为条件视频生成问题，从而受益于互联网预训练视频生成模型。

大多数现有工作都是为每个机器人训练一个视频生成模型，这削弱了将视频作为统一的状态-动作空间用于体现式学习的潜在优势。

在上图中提供了在 Open X-Embodiment 数据集之前和新生成的视频计划看起来都非常逼真，并成功完成了指定任务。

视频生成即模拟

视频生成技术不仅能解决前文提到的众多任务，还能够在另一个重要领域发挥作用——模拟各种系统和过程的视觉效果，进而根据模拟结果优化系统的控制策略。

这一能力对于那些能够收集到大量视频数据，但难以精确描述底层物理动态的应用场景尤为重要，如云层的流动、与柔软物体的交互等。

游戏环境的生成

多年来，游戏已成为测试AI算法的理想平台。举个例子，街机学习环境（Arcade Learning Environment）推动了深度Q学习技术的发展，这一技术成功让AI智能体首次在Atari游戏中达到了人类的水平。

同样的，我们可以通过与游戏引擎中的真实模拟结果进行对比，来验证生成式模拟器的质量。

- 模拟复杂游戏环境

通过动作条件下的视频生成技术，可以模拟出像Minecraft这类复杂电脑游戏的环境动态。

基于此，研究人员提出了一个能够根据以往的游戏进程预测未来的动作和游戏状态的Transformer模型。

游戏中的观察结果和玩家动作都被转化为了Token，这样就把预测下一步动作简化为了预测下一个Token。

值得注意的是，在这种情况下，模型既可以作为世界模型，也可以作为行动策略。

如图6所示，给定一个以行动结束的观察和行动交替序列，模型就能推断出下一个观察结果（世界模型）;给定一个以观察结束的类似序列，模型就能推断出下一个要采取的行动(策略)。

借助这种策略和动态分析骨干，还可以应用基于模型的强化学习算法，如Dyna、Dreamer和MuZero，来进一步优化策略。

- 创造新型游戏环境

在游戏AI领域，程序化创造新型游戏内容和关卡是一个热门研究方向，而这也已被证实对训练和评价强化学习（RL）智能体非常有用。

如图7所示，通过学习大规模互联网上未经标注的游戏数据中的潜动作，然后训练一个可控制动作的视频模型，可以实现从一张提示图像生成无限可能的多样化互动环境。

虽然这项工作还处于探索阶段，但在未来，我们或许可以通过集成学习到的奖励模型，让RL智能体在完全由生成模型创造的游戏环境中进行训练。

机器人与自动驾驶

模拟SE(三)动作空间是机器人学习领域的一大挑战，尤其体现在如何将在虚拟模拟器中训练的策略成功应用到真实机器人上的问题。

此前的研究成功地在真实机器人的视频数据上，针对Language Table环境，学习了一个基于动作的下一帧预测模型，并采用了一个简单的笛卡尔（Cartesian）动作空间。

如图8所示，可以看到，下一帧预测能够预测出SE(三)空间中更为通用的末端执行器动作所产生的视觉效果。

生成式SE(三)模拟器的一个直接应用是评估机器人策略，这在涉及真实机器人评估的安全考虑时特别重要。

除了评估，此前的研究还在Language Table环境中使用来自生成式模拟器的rollouts训练了强化学习（RL）策略。

下一个步骤可能是，使用Dyna式算法并结合模拟的演示和真实环境的数据来学习策略。

在这种情况下，当策略在执行时，真实世界的视频会被收集起来，为生成式模拟器提供额外的示范和反馈。

最后，通过在多样化环境中进行视频演示，生成式模拟器能够有效地训练多任务和多环境策略，这在之前是无法实现的，因为通常一个策略一次只能接触到一个真实世界环境。

科学与工程

视频已经成为了跨越众多科学和工程领域的一个统一的表现形式，对医学成像、计算机图像处理、计算流体动力学等领域的研究产生了影响。

在一些情况下，虽然我们可以通过摄像头轻松捕捉到视觉信息，但是很难识别背后的动态系统（比如云的运动，或者电子显微镜下原子的运动）。

而基于控制输入的视频生成模型可以成为一个有效的视觉模拟工具，进而帮助我们得到更优的控制方案。

下图展示了硅原子在碳原子单层上，在电子束的刺激下的动态变化。可以看到，这种生成式模拟器能够准确地在像素层面捕捉硅原子的移动。

除了帮助缩小模拟与现实之间的差距，生成式模拟器还有一个优点是它们的计算成本是固定的，这在传统计算方法无法应对的情况下尤为重要。

总结

总结而言，研究人员认为，视频生成技术在物理世界的作用，就像语言模型在数字世界中的角色一样重要。

团队通过展示视频如何能够像语言模型一样，广泛地表达信息和执行任务来支持这个观点。

并且，从新的角度探讨了视频生成技术的应用，这些应用通过结合推理、场景中的学习、搜索、规划和强化学习等方法，来解决现实世界中的问题。

虽然视频生成模型面临着如虚假生成（幻觉）和泛化能力等挑战，但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台，并最终可能作为一种人工智能大脑，在物理世界中进行思考和行动。

参考资料:

https://arxiv.org/abs/2402.17139