您的位置:首页 > 互联网

真·降维打击,Sora与Runway、Pika的对比来了,震撼效果背后是物理引擎模拟现实世界

发布时间:2024-02-18 10:40:05  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

以后的视频生成领域,恐怕真的只有 OpenAI 的 Sora 和其他模型了。

昨天,OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区,其生成的长达1分钟的高清、流畅视频令人们惊叹不已,直呼好莱坞的时代结束了。

仅仅一年时间,文本生成视频的效果迎来了质的飞跃。

图源:https://twitter.com/samsheffer/status/1758205467682357732

当然,随着 Sora 加入这场视频生成领域的战争,受到冲击最大的是同类竞品模型,比如 Runway、Pika、SDV、谷歌和 Meta。

看到 Sora 的生成效果之后,很多人认为,Sora 对这些前辈来了一波降维打击。事实真的如此吗?有推特博主已经做了对比。

这位博主给 Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt:

美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬。

可以看到,相比于其他三个视频生成模型,Sora 在生成时长、连贯性等方面都有显著的优势。

图源:https://twitter.com/gabor/status/1758282791547232482

这样的对比还有很多,比如输入相同的 prompt一窝金毛幼犬在雪地里玩耍,它们的头从雪中探出来,被雪覆盖。

图源:https://twitter.com/DailyUpdatesNet/status/1758646902751670355

再比如输入相同的 prompt几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走来,长长的毛毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光、缕缕云彩和远处高高的太阳营造出温暖的光芒,低相机视野令人惊叹地捕捉到了大型毛茸茸的哺乳动物与美丽的摄影,景深。

虽然 Runway 和 Pika 表现都不错,但 Sora 的生成质量具有压倒性的优势。

图源:https://twitter.com/keitowebai/status/1758384152670577136

还有人对比了 Pika1.0(去年四月)与 Sora,感叹不到1年的时间,AI 生成视频已经发生了翻天覆地的变化。

原视频:https://twitter.com/QuintinAu/status/1758536835595124910

与此同时,更多创作者也晒出了他们使用 Sora 生成的视频,进一步验证了 Sora 的超强视频生成能力。

比如输入 prompt一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。

图源:https://twitter.com/billpeeb/status/1758650919430848991

比如输入 prompt一座幽灵般的鬼屋,有友好的杰克灯笼和鬼魂人物,欢迎捣蛋鬼来到入口,倾斜移位摄影。

图源:https://twitter.com/billpeeb/status/1758658884582142310

比如输入 prompt一个由水制成的人行走着,参观了一个美术馆,里面有许多不同风格的美丽艺术品。

剪辑视频的软件哪个好用?

图源:https://twitter.com/_tim_brooks/status/1758666264032280683

比如输入 prompt人们在海滩放松的真实视频,一条鲨鱼从水中冒了出来,让所有人大吃一惊。

图源:https://twitter.com/_tim_brooks/status/1758655323576164830

在 Sora 震撼效果的背后,OpenAI 也于昨日公布了详细的技术报告。

技术报告地址 https://openai.com/research/video-generation-models-as-world-simulators

Sora 背后的技术

OpenAI 在技术报告中重点展示了:(1)将所有类型的视觉数据转化为统一表示,从而能够大规模训练生成模型的方法;以及(2)对 Sora 的能力和局限性进行定性评估。

令人遗憾的是,OpenAI 的报告不包含模型和训练的细节。

最近一段时间,视频生成是 AI 领域的重要方向,先前的许多工作研究了视频数据的生成建模方向,包括循环网络、生成对抗网络、自回归 transformer 和扩散模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。

与之不同的是,OpenAI 的 Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。

视觉数据转为 Patches

大型语言模型通过在互联网规模的数据上进行训练,获得了出色的通用能力中,OpenAI 从这一点汲取了灵感。LLM 得以确立新范式,部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

在这项工作中,OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token,而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。

在更高层面上,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。

视频压缩网络

OpenAI 训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,而后生成视频。OpenAI 还训练了相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在 patches

给定一个压缩的输入视频,OpenAI 提取一系列时空 patches,充当 Transformer 的 tokens。该方案也适用于图像,因为图像可视为单帧视频。OpenAI 基于 patches 的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,OpenAI 可以通过在适当大小的网格中排列随机初始化的 patches 来控制生成视频的大小。

用于视频生成的缩放 Transformer

Sora 是个扩散模型;给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的干净patches。重要的是,Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性,包括语言建模、计算机视觉、和图像生成。

在这项工作中,OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面,OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。

可变的持续时间,分辨率,宽高比

过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸,例如4秒的视频分辨率为256x256。相反,该研究发现在原始大小的数据上进行训练,可以提供以下好处:

首先是采样的灵活性:Sora 可以采样宽屏视频1920x1080p,垂直视频1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。

其次是改进帧和内容组成:研究者通过实证发现,使用视频的原始长宽比进行训练可以提升内容组成和帧的质量。将 Sora 在与其他模型的比较中,后者将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。经过正方形裁剪训练的模型(左侧)生成的视频,其中的视频主题只是部分可见。相比之下,Sora 生成的视频(右侧)具有改进的帧内容。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。研究团队将 DALL・E3中的重字幕(re-captioning)技术应用于视频。

具体来说,研究团队首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中所有视频生成文本字幕。研究团队发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL・E3类似,研究团队还利用 GPT 将简短的用户 prompt 转换为较长的详细字幕,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户 prompt 的高质量视频。

以图像和视频作为提示

我们已经看到了文本到视频的诸多生成示例。实际上,Sora 还可以使用其他输入,如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。

为 DALL-E 图像制作动画

只要输入图像和提示,Sora 就能生成视频。下面展示了根据 DALL-E2和 DALL-E3图像生成的视频示例:

狗戴着贝雷帽、穿着黑色高领毛衣

带有 Sora 的云图像

视频内容拓展

Sora 还能够在开头或结尾扩展视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的开头各不相同,拥有相同的结尾。

,时长00:16

不妨使用这种方法无限延长视频的内容,实现视频制作永动机。

视频到视频编辑

扩散模型激发了多种根据文本 prompt 编辑图像和视频的方法。OpenAI 的研究团队将其中一种方法 ——SDEdit 应用于 Sora,使得 Sora 能够在零样本(zero-shot)条件下改变输入视频的风格和环境。

输入视频如下:

乐视超级手机1发布会

输出结果:

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行转场,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

图像生成能力

Sora 还能生成图像。为此,OpenAI 将高斯噪声 patch 排列在空间网格中,时间范围为一帧。该模型可生成不同大小的图像,最高分辨率可达2048x2048。

饿了么网站网址是多少?

涌现模拟能力

OpenAI 发现,视频模型在经过大规模训练后,会表现出许多有趣的新能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现没有任何明确的三维、物体等归纳偏差 — 它们纯粹是规模现象。

三维一致性。Sora 可以生成动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中的移动是一致的。

长序列连贯性和目标持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现,虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系,但它在很多时候仍然能做到这一点。例如,即使人、动物和物体被遮挡或离开画面,Sora 模型也能保持它们的存在。同样,它还能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

与世界互动。Sora 有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。Sora 还能模拟人工进程,视频游戏就是一个例子。Sora 可以通过基本策略同时控制 Minecraft 中的玩家,同时高保真地呈现世界及其动态。只需在 Sora 的提示字幕中提及 Minecraft,就能零样本激发这些功能。

这些功能表明,视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的道路。

局限性讨论

作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式,例如长时间样本中出现的不一致性或物体的自发出现。

不过,Sora 目前所展现的能力证明了持续扩大视频模型的规模是一个充满希望的方向,这也将助力物理和数字世界及其中的物体、动物和人类能够有更加精确的模拟。

更多详细内容,请参阅 Sora 原始技术报告。

参考链接:https://openai.com/research/video-generation-models-as-world-simulators


返回网站首页

本文评论
滴滴2020上半年财报「滴滴发布2023年第三季度财报:营收514亿元 同比增长25%」
11月13日 消息:滴滴发布了2023年第三季度财报,报告显示,滴滴本季度总收入达到514亿元,同比增长25%。其中,中国出行业务收入为466亿元,同比增长27%;国际业务收入为20亿元,同比增长2...
日期:11-13
一体机电脑多少钱可以直播「一体机电脑多少钱」
一体机电脑已经成为现代家庭、办公室的必备设备,随着科技的不断进步,型号和价格也日渐丰富和多样化。那么,一体机电脑的价格到底是多少呢?苹果专卖店购买iPhone12要加价吗首先,我...
日期:06-03
人人网前三季度净营收3330.4万美元 毛利润为2565.1万美元_人人二季度营收
12月22日 消息:人人网发布了截至2022年9月30日的九个月业绩。财报显示,人人网2022年前九个月净营收较上年同期增长了40%,达到3330.4万美元;净亏损为5770.3万美元,而上年同期净...
日期:12-22
大模型创企MiniMax接近完成新一轮融资 估值有望达到近12亿美元_模型创业
6月3日 消息:据路透社报道,有知情人士透露,专注于通用大型模型的中国人工智能创业公司 MiniMax 正接近完成一轮超过2.5亿美元的融资,其估值有望达到近12亿美元。该公司正在开发...
日期:06-03
禁止公益类账号变现-抖音新规
【】6月2日消息,针对个别创作者利用互联网平台,试图以“助农”“助困”“助残”为由,通过编造不实“贫困生活”“破旧住房”等场景,实施虚假“捐赠救助”等“公益”行为,抖音更新...
日期:09-25
微软CFO回应“万人大裁员”:希望公司成本结构与收入协同一致
近日,微软突然宣布,将在2023财年第三季度末裁员1万人,在国内外引起了轩然大波。今天,微软首席财务官(CFO)Amy Hood在财报会议上,回应了此次万人大裁员”,并表达了微软做出这一决定的...
日期:01-26
百度挺过寒冬,但下一个春天在哪?
查看最新行情   来源:36氪  文/范亮 李欣 黄绎达  编辑/郑怀舟 黄绎达  8月30日,百度集团(证券代码:9888.HK、BIDU.O,以下简称:百度)公布了2022年第二...
日期:09-01
Runway的AI视频生成工具Gen-2更新 生成的视频运动更流畅、高清和逼真
划重点:i7 14700k性能apple watch se运动型表带...
日期:11-03
芒果TV,奋力挣脱二线
如果以用户规模计算,国内长视频平台现在呈现“两超两强”格局:2023年Q1,爱奇艺、腾讯视频、芒果TV、优酷视频的MAU分别为5.97、4.07、2.89、1.74亿人(易观千帆)。如果按盈利计算,...
日期:10-25
我国制造业转型升级的现实路径「我国制造业转型升级持续提速」
通信世界网消息(CWW)今年以来,我国加大技改投入,推动传统制造业加快转型,同时,积极培育战略性新兴产业,形成更多先进制造业产业集群。东芝为什么不赔雄安新区智能交通今年前三季度,...
日期:11-15
南瓜电影不能看了怎么办?手把手教你如何用葫芦视频看电影(南瓜影视大全为什么不能看视频?)
  最近由于版权问题,南瓜电影下架了很多电影,这给喜欢追剧的朋友们带来了诸多不便,不过小编马上为大家带来了解决办法,让大家可以继续在线免费观看电影,下面让我们一起来看一...
日期:05-13
华为畅享6nceal10「华为畅享60 Pro将开售 1499元」
华为畅享60 Pro将在25日发布,目前首发有着100元优惠,起步价格为1499元。华为畅享60 Pro配备一块6.8英寸大屏,左右边框只有1mm,屏占比达到94.9%,成为华为最高屏占比直屏手机。lg音...
日期:05-22
本周年报抢先看:顺丰控股净利下滑 九家公司业绩最高「顺丰控股:预计前三季度净利润同比增长146%-154%」
10月13日消息:顺丰控股公告称,预计前三季度净利润44.2亿元-45.7亿元,同比增长146%-154%,第三季度净利润预计同比增长84%-99%。amd rx7000显卡什么时候发布百度糯米盈利模式顺丰...
日期:10-17
中国联通在广东率先实现首个RedCap全产业链测试验证及商用部署_广东联通互联网产业
近日,中国联通在广东完成高通、MTK、上海移远、爱立信、中兴RedCap组网验证、端网功能验证。至此,中国联通已完成涵盖芯片(高通、MTK)、模组及终端(移远通信、鼎桥、宏电、通则、...
日期:09-25
知乎宣布将下线“匿名功能” 用户将不能匿名创建问题「知乎匿名在哪里设置」
凤凰网科技讯7月7日消息,知乎宣布“匿名发布”入口将会取消,用户将不能匿名创建问题或匿名发布内容。对于历史匿名内容,用户可自主选择是否将其转为实名。昆仑决融资10亿美元知...
日期:07-07
抖音官方最推荐短视频时长为_抖音测试短剧付费模式
  11 月 29 日消息,据 Tech 星球报道,抖音已开始测试短剧付费模式,而此前快手已经推出了该模式。   根据测试的页面可以看出,抖音短剧的付费模式与付费小说类似,是按集数进...
日期:07-17
华为Mate X5折叠屏手机发布:3版本售12999元起
华为Mate X5折叠屏手机于9月14日正式公布售价并全面开售。该款手机有三个版本可供选择,包括普通版、典藏版和典藏版。其中,普通版有12GB 256GB、12GB 512GB和16GB 512GB三个版...
日期:09-14
oppo find7s「OPPO Find X7系列入网,采用双处理器,标配潜望长焦」
就在今日,OPPO Find X7系列两款机型已全部入网。Find X7系列标配100W的快充头,并采用双处理器策略——天玑9300和骁龙8 Gen 3。所有型号都配备了高品质潜望式长焦镜头和高密度...
日期:12-09
华为Mate60 RS非凡大师开售 一机难求
华为Mate60系列自上市以来一直保持着火爆销售的状态,无论是线上还是线下都出现了“一机难求”的情况。而现在,随着“万元机皇”华为Mate60 RS非凡大师的到来,消费者们再次充满...
日期:09-29