您的位置:首页 > 互联网

open source「没等来OpenAI,等来了Open-Sora全面开源」

发布时间:2024-03-18 12:06:35  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继2周前推出成本直降46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型Open-Sora1.0,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。

先睹为快,我们先看一段由 Colossal-AI 团队发布的Open-Sora1.0模型生成的都市繁华掠影视频。

Open-Sora1.0生成的都市繁华掠影

这仅仅是 Sora 复现技术冰山的一角,关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo 展示和详细的上手教程,Colossal-AI 团队已经全面免费开源在 GitHub,同时笔者第一时间联系了该团队,了解到他们将不断更新 Open-Sora 的相关解决方案和最新动态,感兴趣的朋友可以持续关注 Open-Sora 的开源社区。

Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora

全面解读 Sora 复现方案

接下来,我们将深入解读 Sora 复现方案的多个关键维度,包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

模型架构设计

模型采用了目前火热的 Diffusion Transformer (DiT) [1] 架构。作者团队以同样使用 DiT 架构的高质量开源文生图模型 PixArt-α [2] 为基座,在此基础上引入时间注意力层,将其扩展到了视频数据上。具体来说,整个架构包括一个预训练好的 VAE,一个文本编码器,和一个利用空间 - 时间注意力机制的 STDiT (Spatial Temporal Diffusion Transformer) 模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间 - 时间注意力机制的 Latte [3] 模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。

STDiT 结构示意图

整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的 Variational Autoencoder (VAE) 的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入 (text embedding) 一起训练 STDiT 扩散模型。在推理阶段,从 VAE 的潜在空间中随机采样出一个高斯噪声,与提示词嵌入 (prompt embedding) 一起输入到 STDiT 中,得到去噪之后的特征,最后输入到 VAE 的解码器,解码得到视频。

模型的训练流程

训练复现方案

我们向该团队了解到,Open-Sora 的复现方案参考了 Stable Video Diffusion (SVD)[3] 工作,共包括三个阶段,分别是:

1) 大规模图像预训练;

2) 大规模视频预训练;

肉皮冻怎么做最好吃?

3) 高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。

第一阶段:大规模图像预训练

第一阶段通过大规模图像预训练,借助成熟的文生图模型,有效降低视频预训练成本。

作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练一个高质量的文生图模型,该模型将作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空 VAE,他们采用了 Stable Diffusion [5] 模型预训练好的图像 VAE。该策略不仅保障了初始模型的优越性能,还显著降低了视频预训练的整体成本。

第二阶段:大规模视频预训练

第二阶段执行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列关联。

我们了解到,这个阶段需要使用大量视频数据训练,保证视频题材的多样性,从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI 团队使用了 PixArt-alpha [2] 的开源权重作为第二阶段 STDiT 模型的初始化,以及采用了 T5[6] 模型作为文本编码器。同时他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。

第三阶段:高质量视频数据微调

open系列开源库

第三阶段对高质量视频数据进行微调,显著提升视频生成的质量。

作者团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

作者团队表示,在 Open-Sora 的复现流程中,他们使用了64块 H800进行训练。第二阶段的训练量一共是2808GPU hours,约合7000美元,第三阶段的训练量是1920GPU hours,大约4500美元。经过初步估算,整个训练方案成功把 Open-Sora 复现流程控制在了1万美元左右。

数据预处理

为了进一步降低 Sora 复现的门槛和复杂度,Colossal-AI 团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动 Sora 复现预训练,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型 LLaVA [7] 生成精细的提示词。作者团队提到他们提供的批量视频标题生成代码可以用两卡3秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频 / 文本对可直接用于训练。借助他们在 GitHub 上提供的开源代码,我们可以轻松地在自己的数据集上快速生成训练所需的视频 / 文本对,显著降低了启动 Sora 复现项目的技术门槛和前期准备。

基于数据预处理脚本自动生成的视频 / 文本对

模型生成效果展示

下面我们来看一下 Open-Sora 实际视频生成效果。比如让 Open-Sora 生成一段在悬崖海岸边,海水拍打着岩石的航拍画面。

再让 Open-Sora 去捕捉山川瀑布从悬崖上澎湃而下,最终汇入湖泊的宏伟鸟瞰画面。

红米note10pro天玑

除了上天还能入海,简单输入 prompt,让 Open-Sora 生成了一段水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋。

三个英雄人物的名字

Open-Sora 还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。

如果你还有更多视频生成的有趣想法,可以访问 Open-Sora 开源社区获取模型权重进行免费的体验。链接:https://github.com/hpcaitech/Open-Sora

值得注意的是,作者团队在 Github 上提到目前版本仅使用了400K 的训练数据,模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中,生成的乌龟多了一只脚。Open-Sora1.0也并不擅长生成人像和复杂画面。作者团队在 Github 上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。

高效训练加持

除了大幅降低 Sora 复现的技术门槛,提升视频生成在时长、分辨率、内容等多个维度的质量,作者团队还提供了 Colossal-AI 加速系统进行 Sora 复现的高效训练加持。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于 Colossal-AI 的异构内存管理系统,在单台服务器上(8*H800)可以无阻碍地进行1分钟的1080p 高清视频训练任务。

此外,在作者团队的报告中,我们也发现 STDiT 模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的 DiT 相比,随着帧数的增加,STDiT 实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

一览 Open-Sora 模型视频生成效果

最后,让我们一睹Open-Sora模型在视频生成上的精彩表现。

欢迎持续关注 Open-Sora 开源项目:https://github.com/hpcaitech/Open-Sora

作者团队表示,他们将会继续维护和优化 Open-Sora 项目,预计将使用更多的视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性,切实推进 AI 技术在电影、游戏、广告等领域的落地。

参考链接:

[1] https://arxiv.org/abs/2212.09748Scalable Diffusion Models with Transformers

[2] https://arxiv.org/abs/2310.00426PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

[3] https://arxiv.org/abs/2311.15127Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

[4] https://arxiv.org/abs/2401.03048Latte: Latent Diffusion Transformer for Video Generation

open_source

[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original

[6] https://github.com/google-research/text-to-text-transfer-transformer

[7] https://github.com/haotian-liu/LLaVA

[8] https://hpc-ai.com/blog/open-sora-v1.0


返回网站首页

本文评论
盛天网络董事长赖春临_湖北盛天CEO赖春临:与百度联盟一起成长
  “通过与百度的合作,湖北盛天在资源的变现能力,收入水平提升上有了明显的提升。”从06年与百度合作以来,湖北盛天已经是第五个年头与百度联盟风雨同舟了,这期间,百度联也完...
日期:07-27
云网筑基 科技智水 中兴通讯亮相2023年中国水博览会_智水云app下载
通信世界网消息(CWW)6月7日,由中国水利学会和中国水利工程协会主办的“中国水博览会暨中国(国际)水务高峰论坛”(简称“水博会”)在江苏南京国际展览中心召开。本届水博会以“锚定...
日期:06-09
2999元!佳能发布掌上Vlog机PowerShot V10 比手机还小巧
快科技5月11日消息,佳能今日发布掌上Vlog机PowerShot V10,售价2999元,预计今年6月中旬开售。小米civi1s价格预测PowerShot V10定位网红、视频博主、视频创作小白记录日常生活,开...
日期:05-11
“神十六”出征!联通全程保障
通信世界网消息(CWW)有一种梦叫“航天梦”,有一种浪漫叫“中国航天”。5月30日9时31分,神舟十六号载人飞船在中国酒泉卫星发射中心成功发射。神舟十六号乘组将与神舟十五号乘组...
日期:05-30
世界首个功能性石墨烯半导体!_石墨烯半导体材料
由于石墨烯缺乏本征带隙,半导体石墨烯在石墨烯纳米电子学中起着重要作用。在过去的二十年中,通过量子限域或化学官能团化来改变带隙的尝试未能生产出可行的半导体石墨烯。佐治...
日期:01-07
荣耀新建GT系列产品线 前Play系列产品经理领头:新项目代号“灭霸”
每天分享科技热点!今天上午,微博认证为荣耀GT系列产品经理@韦骁龙Raul 发文称 新项目快上市了,是你们期待的。i7-8700k配什么主板据了解,韦骁龙是荣耀前Play系列项目经理。从韦...
日期:11-29
从抖音电商 0 基础到品类第一,五谷磨房是怎么用一年时间做到的?| 巨量千川开年攻略
声明:本文来自于微信公众号 刀法研究所(ID:DigipontClub),作者:关聪,授权转载发布。在线下卖场流量减少的大背景和消费者购物习惯线上化的大趋势下,不少成立已久的成熟企业纷纷或...
日期:02-09
超长待机只看飞利浦 备用机户外人群首选(飞利浦超长待机王)
  据【观研天下】数据显示,2018年我国国内旅游人数达到了55.39亿人次,同比增长10.8%。2020年我国国内旅游人数接近70亿人次,预计2023年将会超过80亿人次。随着国内经济的不...
日期:04-01
腾讯混元大模型通过备案 将陆续面向公众开放
9月15日 消息:今天,腾讯混元大模型首批通过备案,将正式上线,并陆续面向公众开放。据悉,腾讯混元大模型是由腾讯全链路自研的实用级大模型,拥有超千亿参数规模、预训练语料超2万亿...
日期:09-15
Stable Diffusion如何快速移除背景 背景画面移除技巧
PBRemTools(Precise background remover tools)是一个 Stable Diffusion web UI 扩充功能,可以高精度地从单张动漫影像中移除背景。另外提供两个工具,分别是「Tile division AB...
日期:04-06
下载个滴滴出行软件「端午假期155万用户下载滴滴出行App- 滴滴」
【】6月25日消息,据滴滴官方披露,端午假期,出游消费热情持续高涨,滴滴在假期3天的订单同比2022年涨幅近六成。数据显示,自端午假期前一天开始至假期结束,超155万用户下载滴滴出行A...
日期:09-23
“买年货铁人三项挑战赛”另类出圈,京东全渠道助你轻松过大年
  办年货、迎除夕,春节的脚步越来越近。近日,在消费者热闹办年货的同时,京东联合永辉、华润、步步高、见福、迪信通、京东电器超级体验店、悦诗风吟等线下门店开启了有趣的...
日期:07-16
陌陌母公司高管调整:王力因身体问题辞任CEO 唐岩接任
凤凰网科技讯 10月28消息,移动社交和娱乐平台挚文集团今天宣布,王力先生因健康原因从即日起辞去公司首席执行官一职,该职务由董事长唐岩先生接任。王力先生仍然担任集团的执行...
日期:10-29
饿了么说支持微信支付,网友:但我为什么没有?_饿了么有没有微信支付
  近日,随着微博的一则话题出现,支付问题再次回到了大众的视野。事情的起因是这样的,有部分用户表示自己在美团点餐时发现支付宝支付选项忽然消失了,微博发出后有部分用...
日期:07-14
2022年7月全球热门移动游戏收入TOP10 王者荣耀蝉联冠军_2021年7月全球游戏收入排名
  Sensor Tower 商店情报数据显示,2022年7月腾讯《王者荣耀》在全球 App Store 和 Google Play 吸金超过2.25亿美元,蝉联全球手游畅销榜冠军。来自中国iOS市场的收入占94.6...
日期:08-19
战斗民族才有的手机硬核操作 荣耀X30将用高品质体验征服全球市场
  12月21日,荣耀俱乐部发布一条视频,在国内刚刚发布的荣耀X30来到了三位战斗民族用户的手中。众所周知,被冠以“战斗民族”之称的俄罗斯人,总能带来各种硬核级别的操作。视频...
日期:07-17
当代年轻人:挤在烧香的队伍里研究玄学
声明:本文来自于微信公众号 壁虎看KOL(ID:bihukankol),作者:三玖是天,授权转载发布。当代年轻人因为生活的快节奏想要的东西太多,但现实往往不尽如人意,琐碎和焦虑促使他们进入寺...
日期:03-09
谷歌 俄罗斯「因谷歌未删除虚假信息,俄罗斯法院对其罚款400万卢布」
11月23日,由于谷歌未能在YouTube上删除有关俄乌冲突虚假信息的视频,俄罗斯一家法院对谷歌处以400万卢布的罚款。2021电视盒子推荐:网友评分超高的五大热卖电视盒子苹果15 pro...
日期:11-24
完全自主!智绘微电子第二代桌面GPU IDM929内测成功:支持PCIe 3.0_智绘软件
快科技12月28日消息,智绘微电子官方宣布,第二代具有完全自主知识产权的图形处理芯片IDM929”成功实现了一次性流片成功,并顺利点亮!锂电池回收有用吗IDM929研发历经2年半,经内部...
日期:12-29
iphone隐藏刘海屏「保留刘海“凹槽” 消息称iPhone SE 4采用6.1英寸LCD显示屏」
据DSCC分析师Ross Young称,苹果iPhone SE 4将采用6.1英寸LCD显示屏,并在显示屏顶部保留刘海“凹槽”。不过,其凹槽是否会像其他iPhone机型一样包含TrueDepth摄像头阵列,以方便使...
日期:10-12