您的位置:首页 > 互联网

开源视频格式「Open-Sora全面开源升级:支持16s视频生成和720p分辨率」

发布时间:2024-04-25 20:18:50  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景,发b站

开源视频格式

再生成个竖屏,发抖音

openmp4.0

还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了

怎么玩?指路

GitHub:https://github.com/hpcaitech/Open-Sora

更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例详尽的上手教程

Open-Sora 技术报告全面解读

最新功能概览

作者团队在GitHub上正式发布了Open-Sora 技术报告[1],根据笔者的了解,本次更新主要包括以下几项关键特性:

  • 支持长视频生成;

  • 视频生成分辨率最高可达720p;

  • 单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;

  • 提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;

  • 开源了最新的自动数据处理全流程。

时空扩散模型ST-DiT-2

作者团队表示,他们对Open-Sora1.0中的STDiT架构进行了关键性改进,旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务,团队采纳了大型语言模型(LLM)的最佳实践,将时序注意力中的正弦波位置编码(sinusoidal positional encoding)替换为更加高效的旋转位置编码(RoPE embedding)。此外,为了增强训练的稳定性,他们参考SD3模型架构,进一步引入了QK归一化技术,以增强半精度训练的稳定性。为了支持多分辨率、不同长宽比和帧率的训练需求,作者团队提出的ST-DiT-2架构能够自动缩放位置编码,并处理不同大小尺寸的输入。

多阶段训练

根据Open-Sora 技术报告指出,Open-Sora 采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。

初始阶段大部分视频采用144p分辨率,同时与图片和240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。

统一的图生视频/视频生视频框架

作者团队表示,基于Transformer的特性,可以轻松扩展 DiT 架构以支持图像到图像以及视频到视频的任务。他们提出了一种掩码策略来支持图像和视频的条件化处理。通过设置不同的掩码,可以支持各种生成任务,包括:图生视频,循环视频,视频延展,视频自回归生成,视频衔接,视频编辑,插帧等。

open ship

支持图像和视频条件化处理的掩码策略

作者团队表示,受到UL2[2]方法的启发,他们在模型训练阶段引入了一种随机掩码策略。具体而言,在训练过程中以随机方式选择并取消掩码的帧,包括但不限于取消掩码第一帧、前k帧、后k帧、任意k帧等。作者还向我们透露,基于Open-Sora1.0的实验,应用50%的概率应用掩码策略时,只需少量步数模型能够更好地学会处理图像条件化。在Open-Sora 最新版本中,他们采用了从头开始使用掩码策略进行预训练的方法。

此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

openmp4.0

掩码策略配置说明

支持多时间/分辨率/长宽比/帧率训练

OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。

具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

开源视频格式

Open-Sora 分桶策略

作者团队进一步透露,为了降低计算资源的要求,他们为每个keep_prob和batch_size引入两个属性(分辨率,帧数),以减少计算成本并实现多阶段训练。这样,他们可以控制不同桶中的样本数量,并通过为每个桶搜索良好的批大小来平衡GPU负载。作者在技术报告中对此进行了详尽的阐述,感兴趣的小伙伴可以阅读作者在GitHub上发布的技术报告来获取更多的信息:https://github.com/hpcaitech/Open-Sora

数据收集和预处理流程

作者团队甚至对数据收集与处理环节也提供了详尽的指南。根据作者在技术报告中的阐述,在Open-Sora1.0的开发过程中,他们意识到数据的数量和质量对于培育一个高效能模型极为关键,因此他们致力于扩充和优化数据集。他们建立了一个自动化的数据处理流程,该流程遵循奇异值分解(SVD)原则,涵盖了场景分割、字幕处理、多样化评分与筛选,以及数据集的管理系统和规范。同样,他们也将数据处理的相关脚本无私地分享至开源社区。对此感兴趣的开发者现在可以利用这些资源,结合技术报告和代码,来高效地处理和优化自己的数据集。

openmp4.0

Open-Sora 数据处理流程

Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora 最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。

比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。

游戏圈大佬

开源视频格式

又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

openmp4.0

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

开源视频格式

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

open ship

除了风景之外,Open-Sora 还能还原各种自然生物。无论是红艳艳的小花,

开源视频格式

还是慢悠悠扭头的变色龙, Open-Sora 都能生成较为真实的视频。

openmp4.0

笔者还尝试了多种 prompt 测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。

开源视频格式

openmp4.0

open ship

在Wish之前,美国外卖平台DoorDash在上市

开源视频格式

openmp4.0

open ship

笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

聊天机器人 github

openmp4.0

分辨率:16*240p

开源视频格式

分辨率:32*240p

openmp4.0

分辨率:64*360p

openmp4.0

分辨率:480*854p

我们还可以喂给Open-Sora一张静态图片让它生成短片

openmp4.0

openmp4.0

开源视频格式

开源视频格式

Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。

再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。

开源视频格式

open ship

我们也能让Open-Sora 生成高清的图片

open ship

openmp4.0

1吨lng等于多少立方米气态天然气

open ship

值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。

权重下载地址:https://github.com/hpcaitech/Open-Sora

当前局限与未来计划

尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。

开源地址:https://github.com/hpcaitech/Open-Sora


返回网站首页

本文评论
微软Teams将整合Workflows:自动执行重复性任务,提高员工生产力_microsoft. teams
IT之家 10 月 26 日消息,根据微软今天发布的新闻稿,计划在 Microsoft Teams 应用中整合 Workflows,通过自动执行重复性任务,节省员工时间,最大限度地减少错误、提高工作效率。IT...
日期:10-26
马斯克前女友拍卖恋爱“纪念品”,拍价最高的爱情贺卡涨到近7000美元
  [环球时报驻法国特约记者 吕克]拥有特斯拉电动汽车和太空探索技术等公司的亿万富翁埃隆·马斯克,如今也成了他人眼中的摇钱树——他的前女友正拍卖他们的爱情纪念品,其中...
日期:09-13
5月6日将发布“1+N认知智能大模型”-科大讯飞刘聪_科大讯飞刘聪博士简介
4月7日消息,在近日召开的人工智能大模型发展论坛上,科大讯飞副总裁、研究院执行院长刘聪透露:科大讯飞“1+N认知智能大模型”将在5月6日正式发布。8月份造车新势力销量realme r...
日期:10-03
i茅台APP注册用户突破3000万 累计预约人次近19亿「i茅台app怎么注册」
12月15日 消息:i茅台官方宣布,今日上午i茅台APP注册用户突破3000万,累计预约人次近19亿i茅台官方表示,注册用户从试运行首日超500万,到上线百日超1900万再到今天突破3000万,经过...
日期:12-15
梦洁集团携手百胜软件,共促“千城万店”目标
  在零售业态变革的时代背景下,梦洁家纺在企业数字化的道路中走出了一条与众不同的路。从“一屋好货”到“千城万店”目标,梦洁家纺紧紧围绕智慧零售,打出了个漂亮的生意仗,...
日期:04-23
"戴苹果头显逛街"视频成热门,数码大V:不应在公共场合戴这种东西
2月7日消息,上周,苹果正式推出了售价3500美元的虚拟现实头显Vision Pro,引起了网上热议。人们纷纷展示他们如何使用这款新型头显,讨论不休。这款头显让用户能够在现实环境中看到...
日期:02-08
pc 鸿蒙「“鸿蒙之父”王成录爆料:明年会有PC版鸿蒙」
日前,有一位网友在王成录博士的微博下提问:“明年有PC鸿蒙吗?”王成录博士回答:“有”。正是有了“鸿蒙之父”的亲自官宣,外界几乎可以肯定:明年会有鸿蒙版PC操作系统问世。注册支...
日期:09-04
华擎B760主板曝光:联名索尼克,M-ATX板型
随着CES 2023的日益临近,越来越多厂商的B760系列主板被曝光,援引VideoCardz的消息,华擎将推出与索尼克联名的B760主板。11月上旬,华擎就与日本SEGA合作,推出了推出Z790 PG SONIC...
日期:12-26
买iPhone 15 Pro快去京东 现货下单到手更快_京东iphone13到货
iPhone 15 Pro系列发布之后,各渠道都处于缺货状态,很多想换新机的果粉都在苦等排队。截止 10 月 20 日,苹果官网下单iPhone 15 Pro仍然显示北京多家门店缺货状态,上门配送需要等...
日期:10-23
互联网的估值_分析称中国互联网概念股估值仍偏高 面临商业前景不太确定
  据国外媒体报道,尽管在美上市的中国互联网股票最近因为有关会计丑闻方面的担忧而遭遇大跌,但是分析师并不建议进行抄底,因为这些股票目前的估值仍然较高,并且面临的商业前...
日期:07-30
恒大汽车:2022年集团亏损人民币276.64亿元
财联社7月26日电,恒大汽车公告称,截至2022年12月31日止年度,集团产生亏损人民币276.64亿元(2021年:人民币563.44亿元)。截至2022年12月31日,集团累计亏损及股东亏损分别为人民币98...
日期:07-26
国家数据局正式揭牌_国家数据中心网
通信世界网消息(CWW)10月25日上午,国家数据局正式揭牌。国家数据局负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和...
日期:10-25
防止弹出广告「别让弹窗广告弹到安全底线」
  来源:北京商报  弹窗广告常见,出现在喜剧场景中博君一笑,但弹到了汽车驾驶途中,把人吓出一身冷汗。  近日,“车载导航中控屏出现弹窗广告”的事件引发争议。“出了事故算...
日期:09-30
云电脑:运营商数字时代大生意
云电脑:运营商数字时代大生意 通信产业网|2023-08-11 17:02:27作者:崔亮亮来源:通信产业网AMD RADEON SOFTWARE【通信产业网讯】随着算力和网络共同步入算网时代,云计算成为了通...
日期:08-24
特斯拉2023年度股东大会将于5月17日召开
4月7日 消息:特斯拉宣布,2023年年度股东大会将于美国中部时间2023年5月16日下午3:00(北京时间5月17日凌晨4:00)在得州超级工厂召开,并同步进行网络直播。lg更新安卓10据特斯拉此...
日期:04-07
“大胃吃播”涉嫌违法 “达人探店”可能构成商业广告-北京市消协
【】4月19日消息,北京市消费者协会官网发布消息称,近期,网络上各种“大胃王”直播引流以及存在虚假夸大宣传的“网络种草”“达人探店”等美食分享行为,不仅涉嫌误导消费者,而且...
日期:10-02
299元一壳难求!华为Mate 60系列微泵液冷壳为啥这么火_华为m6液冷散热
提到手机壳三个字,相信大家根本不会和高科技联想到一起。但华为有一款手机壳,不仅充满了技术含量,而且卖到299元还一壳难求,几次补货都是秒光,甚至还在某黄鱼炒到500+元。没错,就...
日期:01-29
报道称字节跳动与摩根大通合作开发支付技术「摩根大通 支付宝」
1月6日 消息:据《福布斯》报道,摩根大通正在与字节跳动合作,帮助字节跳动开发支付技术。根据数据分析公司Sensor Tower的数据,2022年全球用户在TikTok上的花费为34亿美元,高于前...
日期:01-06
TruthGPT官网地址多少 马斯克要推的TruthGPT真的比chatGPT靠谱吗?
“硅谷钢铁侠”马斯克最近计划成立一家人工智能初创公司,与ChatGPT展开竞争。他称这家公司叫TruthGPT,是一个试图理解宇宙本质、最大限度追求真理的人工智能。特斯拉国内外销...
日期:04-18
ofo被列为老赖 未履行金额超6亿_ofo还在还钱吗
凤凰网科技讯 2月22日消息,据天眼查App显示,截至目前,ofo关联公司东峡大通(北京)管理咨询有限公司已有40余则失信被执行人(老赖)信息,未履行金额6.5亿余元,并被限制高消费上百次。图...
日期:03-01