您的位置:首页 > 互联网

解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品

发布时间:2024-03-03 14:14:50  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:西风,授权转载发布。

Sora刚发布不久,就被逆向工程“解剖”了?!

来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有37页。

他们基于Sora公开技术报告和逆向工程,对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。

连计算机视觉领域的AI生成模型发展史、近两年有代表性的视频生成模型都罗列了出来:

网友们也属实没想到,仅仅过了半个月、Sora还暂未公开仅有部分人可使用,学术圈相关研究竟出现得这么快。

不少网友表示,综述非常全面有条理,建议全文阅读。

那么这篇综述具体都讲了啥?

量子位在不改变原意的基础上,对部分内容进行了整理。

目录

逆向工程剖析Sora技术细节

  • 整体架构

  • 多样性视觉数据预处理

  • 指令调优:视频摘要生成器

  • 视频提示工程

Sora具有里程碑式意义

Sora的五大应用前景及局限性

逆向工程剖析Sora技术细节

众所周知,Sora发布后,OpenAI紧接着发布了技术报告,但未详细透露技术细节,被有的网友吐槽OpenAI果然还是这么“Close”。

学术圈的猜测也是五花八门,ResNeXt一作谢赛宁、英伟达AI科学家Jim Fan等各路大佬都曾激情开麦。Jim Fan还高呼Sora就是视频生成的GPT-3时刻。

不过,OpenAI研究员Jason Wei最近对Sora的评价是视频生成的GPT-2时刻。

大佬们众说纷纭,然而谁的猜测更为准确还不好说。

而在这篇研究综述中,研究人员用逆向工程同样推测分析了Sora的技术细节,并讨论了一系列相关工作。大致涉及以下几个问题——

整体架构

根据OpenAI发布的技术报告,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,即为一种“扩散型Transformer”。

回顾现有工作并运用逆向工程,研究人员推测补充了如下信息。

Sora整个框架可能由三部分组成:

  • 首先,时间-空间压缩器将原始视频映射到潜在空间;

  • 随后,ViT处理这些被token化的潜在表示,并输出去噪后的潜在表示;

  • 类似CLIP的条件机制接收由LLM增强的用户指令和潜在的视觉提示,生成具有特定风格主题的视频。经过多次去噪迭代,最终得到了生成视频的潜在表示,随后通过相应的解码器映射回像素空间。

△逆向工程:Sora框架概述

更细节一点,逆向工程推测Sora利用了级联扩散模型架构,结合基础模型和多个时空细化模型。

由于高分辨率下使用注意力机制的计算成本高且性能提升有限,基础扩散模型和低分辨率扩散模型不太可能大量使用注意力模块。

同时,考虑到视频/场景生成中时间一致性比空间一致性更重要,Sora或采用长视频(用于时间一致性)和低分辨率的高效训练策略来保证空间和时间上的一致性。

△Diffusion Transformer,DiT(左)、U-ViT(右)的整体架构

另外,考虑到与预测原始潜在变量x或噪声ϵ的其他变体相比,v参数化扩散模型的性能更优,Sora可能使用v参数化扩散模型。

在潜在编码器方面,大多数现有工作为提升训练效率,利用Stable Diffusion的预训练VAE编码器作为初始化的模型checkpoint。

然而,编码器缺乏时间压缩能力。尽管一些工作提议只微调解码器来处理时间信息,但解码器在压缩的潜在空间中处理视频时间数据的性能仍然不是最优的。

基于技术报告,研究人员推测Sora可能不是使用现有预训练VAE编码器,而是使用从零开始在视频数据上训练的时空VAE编码器,该编码器在针对视频内容优化的压缩潜在空间中的表现优于现有编码器。

多样性视觉数据预处理

与传统方法需要裁剪视频大小或调整宽高比以适应统一的标准尺寸不同,Sora能够在原生尺寸的视频和图像上训练、理解并生成视频。

也就是能处理多样性视觉数据,且对原始尺寸的样本无损,这显著提升了Sora的视频构图与框架,使生成的视频更自然连贯。

举个例子,用传统方法训练如左图,由于正方形裁剪,视频画面主体被截断,而右图使用原始样本训练,视频主体完全被捕捉。

这部分的技术细节,OpenAI在技术报告中虽然做了重点介绍,不过也仅是提出了一个高层次的想法:

为处理不同分辨率、宽高比、时长的图像和视频,Sora采用了统一的视觉表示。具体来说,模型先将视频压缩到低维潜在空间中,然后将表示分解为时空patch,从而实现了视频的“patch化”。

而在综述中,研究人员做了如下分析。

Sora的视频压缩网络(视觉编码器)目的是减少输入数据(原始视频)的维度,并输出一个在时间和空间上都被压缩的潜在表示。

根据Sora技术报告中的参考文献,压缩网络建立在VAE或VQ-VAE之上。如果按照技术报告中提到的不调整大小、不裁剪,VAE很难将视觉数据映射到统一且固定大小的潜在空间。

不过,这里总结了两种方法来解决这个问题。

一种方法是空间-patch压缩(Spatial-patch Compression),类似于ViT和MAE中采用的方法,将视频帧分割成固定大小的patch然后将它们编码到潜在空间。

有几个关键问题要注意:

  • 时间维度的可变性。因视频时长不同、潜在空间维度不固定,需通过采样固定帧数或设定超长输入长度来整合时间信息。

  • 利用预训练视觉编码器。大多数研究者倾向于使用预训练编码器如Stable Diffusion的VAE,但Sora团队可能自行训练编码器和解码器,能高效处理大尺寸patch数据。

  • 时间信息的整合。由于这种方法主要关注空间patch压缩,所以需要模型内部的额外机制来聚合时间信息,这对于捕捉动态变化至关重要。

另一种方法是空间-时间-patch压缩(Spatial-temporal-patch Compression),使用3D卷积提取时间信息。

这种方法同时封装视频数据的空间和时间维度,提供一种全面的视频表示,考虑了帧之间的运动和变化,从而捕捉视频的动态特性。

与空间-patch压缩相似,空间-时间-patch压缩通过设置特定的卷积核参数处理视频,由于视频输入的特征差异,导致潜在空间维度发生变化,在这里上文提到的空间-patch的方法同样适用并有效。

在压缩网络这部分还有一个关键问题:如何处理不同视频类型中潜在特征块或patch的数量,然后再将patch输入到Diffusion Transformer的输入层?

研究人员认为,基于Sora的技术报告和相应参考文献,patch n’ pack(PNP)可能是解决方案。

PNP将来自不同图像的多个patch打包到一个序列中,类似于NLP中的示例打包,通过丢弃token来适应可变长度输入的高效训练。

在打包过程中,需要考虑如何以紧凑的方式打包这些patch,以及如何控制哪些patch应被丢弃。

对于第一个问题,研究人员提到了一种简单的算法,即在有足够剩余空间时添加示例,然后用token填充序列,以获得批量操作所需的固定序列长度。

对于第二个问题,一种直观的方法是丢弃相似的token,或者像PNP那样应用丢弃率调度器。

不过丢弃token可能会在训练过程中遗失一些细节。因此,研究人员认为OpenAI可能会使用超长的上下文窗口打包视频中的所有token。

长视频的空间-时间潜在patch可以打包在一个序列中,而来自几个短视频的潜在patch则在另一个序列中连接。

总的来说,在数据预处理这部分,研究人员推测Sora首先将视觉patch压缩成低维潜在表示,然后将这样的潜在patch或进一步patch化潜在patch排列成一个序列,接着在将这些潜在patch输入到Diffusion Transformer的输入层之前注入噪声。

Sora采用空间-时间patch化,因为它易于实现,并且可以有效减少具有高信息密度token的上下文长度,降低后续对时间信息建模的复杂性。

指令调优:视频描述生成器

模型指令调优旨在增强AI模型遵循提示的能力,使模型能适应更广泛的用户请求,确保对指令中的细节给予细致的关注,并生成精确满足用户需求的视频。

Sora在这方面采用了一种与DALL·E3类似的方法。

首先训练一个能够详细描述视频的视频描述生成器(Video captioner)。然后,将其应用于训练数据中的所有视频,来生成高质量的视频-文本对,用这些视频-文本对微调Sora,提高其遵循指令的能力。

Sora的技术报告没有透露训练视频摘要生成器的细节。鉴于视频摘要生成器是一个视频-文本的模型,构建它有多种方法。

方法之一是利用CoCa架构进行视频摘要生成,通过获取视频的多个帧并将每个帧输入到图像编码器VideoCoCa。

VideoCoCa基于CoCa并重用预训练的图像编码器权重,独立地应用于采样的视频帧。得到的帧token嵌入被展平并连接成一个长视频表示序列。这些展平的帧token随后被一个生成性池化器和一个对比性池化器处理,这两者与对比损失和摘要生成损失一起联合训练。

构建视频描述生成器的其他选择包括mPLUG-2、GIT、FrozenBiLM等。

最后,为确保用户提示与训练数据中的描述性摘要格式对齐,Sora执行了一个额外的提示扩展步骤,其中用GPT-4V将用户输入扩展为详细的描述性提示。

视频提示工程

提示工程是为了让用户引导AI模型生成与其意图一致的内容。

以前关于提示工程的研究主要集中在LLM和文本生成图像的提示上,研究人员推测对视频生成模型的视频提示将会越来越受到关注。

提示工程的效果依赖于精准选择用词、明确细节,以及对这些细节如何影响模型输出的深刻理解。比如下图示例中,提示词详细描述了动作、环境、角色造型,甚至是期望的情绪和场景氛围。

Sora还能够同时利用视觉和文本信息,将静态图像转换为动态的、叙事驱动的视频。

除此外,Sora还能够向前或向后扩展视频,通过提示可以指定扩展的方向、主题等。

在下图(a)中,视频提示指导Sora倒退扩展视频。下图(b)中,切换视频场景时,模型需要通过prompt清楚理解所需视频风格、氛围、光线明暗变化等细节。图(c)中,指导Sora连接视频,在不同场景中对象间顺畅过渡,也需要在提示工程上下功夫。

Sora具有里程碑式意义

在圈内外炸开锅、被称为是视频生成GPT-3、GPT-2时刻,Sora为何被认为具有里程碑式意义?

透过计算机视觉(CV)领域的AI生成模型发展史来看,Sora的突破性或许就更加明了了。

过去十年,生成式CV模型的发展变换了多种路线。

  • 深度学习革命前,传统图像生成依赖于基于手工制作特征的纹理合成和纹理映射等方法。

  • 而后生成对抗网络(GAN)和变分自编码器(VAE)、流模型( flow model)和扩散模型(diffusion model)相继出现。

  • Transformer架构出现格局发生巨变,先在NLP领域成功应用,而后在CV领域与视觉组件结合,催生了ViT、Swin Transformer等。

  • 与此同时,扩散模型在图像和视频生成领域也取得了显著进展。

  • 2021年以来,AI多模态迎来变革。CLIP、Stable Diffusion接连爆火。

重要的一点是,大语言模型领域开始逐渐展示出规模化定律,ChatGPT、GPT-4等展示出了一定的涌现能力。

不过视觉模型是否同样符合规模化定律还不是很清晰。

华为mate20大屏幕手机价钱

而Sora作为一个大型视觉模型(LVM),它的问世与规模原则保持了一致,揭示了在文本-视频生成中的几种涌现能力。这一进展凸显了LVM实现类似LLM那样的进步的潜力。

根据Sora的技术报告,它是第一个确认展示出涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。

除了其涌现能力,正如上面提到的,Sora在遵循指令、视觉提示工程以及视频理解等方面的能力亦有重大进步。

比如,Sora能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,似乎还能理解简单物体在物理世界中的存在方式。它还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格……

Sora的五大应用前景及局限性

研究人员总结Sora具有五大亮点:提高模拟能力、促进创造力、推动教育创新、增强无障碍性、促进新兴应用。

最后还总结了Sora的五大应用场景:

1、电影制作:Sora的应用在电影制作领域具有革命性意义,它能够将文本脚本转化为电影风格的视频,降低了电影制作的门槛,使得个人创作者也能够制作电影内容。

2、教育:在教育领域,Sora能够将教学大纲或文本描述转化为动态视频内容,提高学生参与度和理解能力,为定制和激活教育材料提供了前所未有的机会。

3、游戏:传统游戏开发常常受限于预渲染环境和脚本事件。扩散模型能够实时生成动态、高保真度的视频内容和真实的声音,有望克服现有限制,为开发者提供创造有机响应玩家行动和游戏事件的演变游戏环境的工具。

4、医疗保健:在医疗领域,它特别适合于识别身体内的动态异常,如早期细胞凋亡、皮肤病变进展和不规则的人体运动,对于早期疾病检测和干预策略至关重要。

5、机器人:在机器人技术中,Sora可以增强机器人的视觉感知和决策能力。使它们能够与环境交互,并以前所未有的复杂性和精度执行任务。

不过,尽管Sora在AI视频生成领域取得了显著进步,但仍面临一些挑战。

解决生成内容中的偏见问题和防止产生有害视觉内容,确保Sora输出的持续安全和无偏见是一项主要挑战。

此外,局限性还包括以下几点:

  • 物理真实性的挑战:Sora在处理复杂场景的物理规律时存在不一致性,例如,吃饼干不一定留下咬痕。

  • 空间和时间的复杂性:Sora有时难以准确理解空间布局和时间顺序的指令,导致物体和角色的位置或安排出现混淆。

  • 人机交互的限制:用户很难对生成内容进行详细修改或优化。

  • 使用限制:OpenAI尚未将Sora对公众开放,在安全性、隐私保护和内容审查等方面,Sora可能仍需进一步的改进和测试。且目前Sora只能生成长达一分钟的视频,限制了其在需要展示更长内容的应用场景中的使用。

更多细节,感兴趣的家人们可以查阅原论文。

One More Thing

这篇综述发布后引起了不少网友关注,有网友表示值得全文阅读,但也有网友吐槽标题“Sora:”的设置极易引起误会。

对此,疑似论文作者在小红书做出回应:

论文链接:https://arxiv.org/abs/2402.17177

参考链接:https://twitter.com/_akhaliq/status/1762678991549354121


返回网站首页

本文评论
Pad 3D 全球最大3D内容生态_努比亚推出首款裸眼3D平板nubia_努比亚最大屏幕是哪款
近日,中兴电子与裸眼3D技术研发公司镭亚在MWC 2023联合宣布,旗下品牌努比亚推出全球首款首款AI引擎驱动裸眼3D平板nubia Pad 3D。与常规的平板相比,nubia Pad 3D最大的特点就是...
日期:09-19
小米汽车公司已申请数百项专利 预计2024上半年量产「小米汽车现状」
凤凰网科技讯 3月6日消息,据天眼查App显示,3月5日,全国人大代表雷军在北京团全体会上介绍,小米造车进展超预期,已经顺利完成冬季测试,预计明年上半年量产。雷军称,自己有1/2的时间...
日期:03-07
中国游客在日本爆买LV 消费水平接近2019年_日本买lv会退税吗
LVMH集团近日发布了2023年上半年的财务报告,显示其在亚洲市场的销售业绩强劲,其中日本市场的收入同比增长了31%,而亚洲其他地区的收入则增长了23%。中国市场是推动亚洲销售增长...
日期:07-28
德州仪器(TI)2022年第三季度营业收入52.4亿美元 较去年同期增长13%「德州仪器财报2021」
10月29日消息,德州仪器公司(TI)近日公布其第三季度财务报告,营业收入52.4亿美元,净收益23亿美元,每股收益2.47美元。其中,每股收益包含未涵盖在公司原始计划的2美分。关于公司业绩...
日期:11-02
Redmi Note 11T Pro新版本今天开始预约:8+256GB售价2099元_redmi note10 pro首发价
9月28日消息,今天Redmi Note 11T Pro新版本:8+256GB的开始预约,售价2099元。这款手机搭载的是LCD屏幕,是目前为数不多的LCD屏,一直想买LCD屏手机的小伙伴可以预约,9月30日晚上8点...
日期:09-30
印度火车车祸「印度列车相撞事故已致288死900伤:死者家属可获8.6万元赔偿金」
快科技6月3日消息,当地时间周五晚,印度奥迪沙邦发生严重火车相撞事故,截至目前,已致288人死亡,超过900人受伤。apple music上一曲苹果 iphone 14 卫星紧急求救功能今天开始正式上...
日期:06-03
小米集团总股本「小米集团:回购520万股,共耗资约4868.3万港元」
  讯 9月28日晚间消息,小米集团公告,回购520万股,回购价格为9.3-9.4港元,共耗资约4868.3万港元。任天堂switch上新...
日期:09-29
爸妈用的智能手机推荐献给伟大妈妈的礼物_精选四款贴心智能手机推荐-
来源:中关村在线在这个日新月异的时代里,科技与社会紧密相连,人们的日常生活也因此得到了极大的改善。当我们在选购电子设备的时候,除了注重产品的性能和功能外,还会考虑到其外观...
日期:12-08
a14芯片是苹果自己生产的吗「苹果 iPhone 14 Pro 的 A16 芯片成本是 A15 的两倍以上」
10月8日消息:据日经亚洲报道,苹果在iPhone14Pro和iPhone14Pro Max中使用的新A16仿生芯片的生产成本为110美元,使其成本是去年发布的iPhone13Pro型号中A15芯片的2.4倍以上。睡8...
日期:10-21
不适合进行心理治疗「研究警告:ChatGPT不适合作心理治疗师」
荣耀x20se屏幕刷新率多少反淘宝联盟事件国美能退款吗属金的字五行属金的字有哪些女孩名字...
日期:10-23
wear中国版app「暴跌99.9%,110亿灰飞烟灭!中国版WeWork,彻底砸了」
当“烧钱”的游戏走到尽头时,一些流量加传统的生意就会快速被证伪。2019年,ofo刺破了共享经济最后的“繁荣”,全球的共享经济开始快速的萎缩,当企业尚不能自己完全造血又缺乏投...
日期:11-01
中国工商银行双APP同步接入中国银联云闪付网络支付平台_中国工商银行手机银行app官方下载云闪付
6月20日 消息:中国银联宣布,6月20日,中国工商银行两款APP即工商银行手机银行APP和工银e生活APP同步接入中国银联云闪付网络支付平台,实现焕新升级,成为首家双APP同时上线的国有...
日期:06-20
ios15静音不震动「iPhone 15 Pro将取代物理静音开关」
iPhone 15 Pro预计将用一个可以自定义执行各种功能的动作键取代物理静音开关,还将取代音量键用于关机和重启功能。重要原因:佳能7d是半画幅相机吗iPhone Pro和非Pro机型之间的...
日期:04-18
三星galaxy z flip 5g评测「三星Galaxy Z Flip5比你想象的更有内涵 坚持可持续设计理念」
来源:中关村在线机箱装主板当时尚不再拘泥于外在,而是转向深层次的生活方式时,更多设计理念得到了大家的关注。随着全球可持续发展的不断深入,智能手机如何透过环保视角,向消费者...
日期:10-15
加拿大“超级猪”数量激增 美国正设置大量地面陷阱_加拿大猪场连环杀手细节
近期,加拿大多省份爆发“超级猪”危机,这些杂交野猪不仅对农业和水源构成威胁,还传播非洲猪瘟,对人类健康安全造成潜在危险。专家指出,“超级猪”以惊人的速度繁殖,即使每年杀死65...
日期:11-29
红杉中国宣布成立创业加速器YUÈ
界面新闻获悉,8月15日,红杉中国宣布成立创业加速器YUÈ,为处于天使轮到A轮的中国创业者提供红杉独家研发的体系化创业课程和资源服务。   创业加速器YUÈ由红杉全球执行合伙...
日期:08-17
三星292寸大屏电视「向高端且全能的方向持续进化,三星大屏电视彰显强大产品力」
随着本年度“超 级黄金周”的结束,三星电视“约惠中秋,国庆献礼”家电焕新活动也已落下帷幕,多款大屏电视以出众的音画效果充分满足了家庭观影的高端需求,受到了消费者的一致好...
日期:10-13
当爷爷奶奶们也玩起了短视频,他们会发什么?_当爷爷奶奶们也玩起了短视频,他们会发什么信息
TikTok 大家应该不陌生,字节跳动( 抖音母公司 )旗下的短视频平台,月活 10 亿,常年蝉联软件下载榜榜首,风靡全球,风头无二。防弹代言的手机但今年,在国外的短视频领域,一匹黑马出现了...
日期:12-03
红旗H5 PHEV首台平台车试制下线:首搭HMP平台_红旗牌汽车h5
快科技11月24日消息,据多家媒体报道,红旗H5 PHEV首台平台车试制下线。 该车的内部代号为C100,新车将基于HMP红旗模块化混动平台开发,是红旗HMP平台推出的首款车型。 据悉,红...
日期:11-25
商业航天量身定做 航天科技一口气发布六款固体火箭发动机_固体火箭发动机总体设计
快科技10月22日消息,据央视新闻报道,日前,航天科技集团四院正式发布包含整体式和分段式在内的商业航天用固体火箭发动机及其型谱。标志着中国航天固体动力将加速进入高质量发展...
日期:10-22