您的位置:首页 > 互联网

开源Open-Sora大更新:可生成16秒,720P高清视频_开源sns

发布时间:2024-04-29 11:53:26  来源:互联网     背景:

声明:本文来自于微信公众号AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

国内著名大模型开源公司潞晨科技,对其开源文生视频模型Open-Sora进行了大更新,现在可生成16秒,分辨率高达720P的视频。

同时具备可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能。

本次潞晨科技已经把Open-Sora的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节进行了全部开源。

京东第二届装机大赛

目前,Open-Sora在github超过16,000颗星,是国内乃至全球领先的类Sora开源模型之一。

开源地址:https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file

Open-Sora架构升级

开源opentx

Open-Sora本次升级对1.0版本中的STDiT架构进行了关键性改进,旨在提高模型的训练稳定性和整体性能。

开源 opc

针对当前的序列预测任务,团队采纳了大型语言模型的最佳实践,将时序注意力中的正弦波位置编码替换为更加高效的旋转位置编码。

苹果重置id密码为什么进去不了

此外,为了增强训练的稳定性参考SD3模型架构,进一步引入了QK归一化技术,以增强半精度训练的稳定性。

为了支持多分辨率、不同长宽比和帧率的训练需求,提出的ST-DiT-2架构能够自动缩放位置编码,并处理不同大小尺寸的输入。

多阶段训练

在新版本Open-Sora中采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。

相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。

初始阶段:大部分视频采用144p分辨率,同时与图片和240p、480p的视频进行混训,训练持续约1周,总步长81k。

第二阶段:将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。

rtx 3060满血显卡优缺点

第三阶段:进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成。

统一的图生视频/视频生视频框架

研究人员发现,基于Transformer的特性,可以轻松扩展DiT架构以支持图像到图像以及视频到视频的任务,并提出了一种掩码策略来支持图像和视频的条件化处理。

通过设置不同的掩码,可以支持各种生成任务,包括:图生视频,循环视频,视频延展,视频自回归生成,视频衔接,视频编辑,插帧等。

受到UL2方法的启发,在模型训练阶段引入了一种随机掩码策略。具体而言,就是在训练过程中以随机方式选择并取消掩码的帧,包括但不限于取消掩码第一帧、前k帧、后k帧、任意k帧等。

基于Open-Sora1.0的实验,应用50%的概率应用掩码策略时,只需少量步数模型能够更好地学会处理图像条件化。在最新版的Open-Sora中,采用了从头开始使用掩码策略进行预训练的方法。

此外,还为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

支持多时间/分辨率/长宽比/帧率训练

OpenAI在Sora的技术报告指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,提出了分桶的策略。

所谓的桶,是分辨率、帧数、长宽比的三元组。为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。

iphone 14 pro灵动岛消息

在每个训练周期epoch开始之前,会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

为了降低计算资源的要求,研究人员为每个keep_prob 和 batch_size 引入两个属性(分辨率、帧数),以减少计算成本并实现多阶段训练。这样就可以控制不同桶中的样本数量,并通过为每个桶搜索良好的批大小来平衡 GPU 负载。

数据收集和预处理流程

在 Open-Sora1.0的开发过程中,研究人员意识到数据的数量和质量对于培育一个高效能模型极为关键。

因此,新版本中致力于扩充和优化数据集,建立了一个自动化的数据处理流程,该流程遵循奇异值分解(SVD)原则,涵盖了场景分割、字幕处理、多样化评分与筛选,以及数据集的管理系统和规范。

同样,潞晨科技也将数据处理的相关脚本无私地分享至开源社区。感兴趣的小伙伴们现在可以利用这些资源,结合技术报告和代码高效地处理和优化自己的数据集。


返回网站首页

本文评论
微软将展示Win 8平板电脑 欲证明发展并未停滞_平板电脑windows8
  微软BUILD开发者大会将于9月13日开幕。微软高管将再度登台,通过一台平板电脑展示该公司新一代操作系统——Windows 8。   在微软历史上,这并不是第一次。该公司CEO史蒂...
日期:07-22
邓中翰委员:让科创板成为集成电路人才的“吸铁石”
  光明网讯 “芯以才成、业由才广,集成电路产业如比做星辰大海,集成电路人才就是大海里的弄潮儿”,全国政协委员、中国工程院院士邓中翰在今年两会上提出建议,科技创新,人才先...
日期:07-16
一加的2k屏「上亿投资!一加12全球首发2K东方屏:刷新18项纪录」
快科技11月29日消息,一加12已定档12月5日发布,将会全球首发2K东方屏。一加李杰今日介绍,这块屏幕是一加与京东方历时两年,投入上亿研发资金,集聚了这个行业最顶级专家打造的里程...
日期:11-29
iQOO 11S新配色曝光 配备超强配置_iqoo coloros11
今日一张照片意外曝光了款尚未公布的iQOO 11S新配色,这款水蓝色手机系iQOO 11S全新的“钱塘听潮”配色版本。从照片来看,该版本后壳或为素皮材质,整机简约设计。此外,这款机型将...
日期:06-27
马来西亚,东南亚手游的“狂飙”
图片来源@视觉中国文 | OM出海研究所2022年,我们面临了近61年以来的首次人口负增长,这一年出生的人口仅为六年前的一半,这说明我们正在逐渐失去人口红利。而对于手游来说,找到尚...
日期:02-03
抢手!iPhone平均售价还要涨?果链公司笑了「iphone价格大跌」
  机构最新预测显示,由于iPhone 14 Pro系列机型畅销等原因,苹果iPhone平均售价将会在第三季度创下新高,达到892美元。  然而,iPhone 14标准版销售却遇冷。Sandalwood电商市...
日期:09-30
乐音相伴 动静随心 三星Galaxy Buds FE火热开售中_三星buds buds+ buds live
2023 年 10 月 27 日,三星Galaxy智能生态新品正式在国内开售,包括三星Galaxy Tab S9 FE与Tab S9 FE+旗舰平板新品,以及三星Galaxy Buds FE蓝牙无线降噪耳机新品。以简约典雅的...
日期:10-27
没有华为,高通坐地起价,骁龙8 Gen2卖1134元,国产手机被割韭菜「高通骁龙8系列处理器的手机」
都说今年经济不景气,大家都在勒紧裤腰带过日子,手机销量也大幅下滑,然而,在手机市场中,一个极不寻常的现象却出现。手机价格越来越高!4月18日,小米发布新机小米13 Ultra系列,起售价...
日期:06-12
马云购雅虎言论引争议 政治审核是最大难题
  据中国之声《新闻纵横》报道,今天的我们对雅虎感兴趣,多半是因为阿里巴巴集团是它的重要资产。而对于雅虎,它的资产对阿里巴巴来说,或许更加重要。就在几天前,阿里巴巴集团...
日期:07-23
小米潜望式长焦「屏下摄像头+潜望长焦 「小米MIX」-Fold 3曝光」
5月30日消息,博主数码闲聊站透露,小米MIX Fold 3弥补了上一代的遗憾,内屏配置了屏下摄像头,同时支持了50W无线闪充,还搭载了5倍潜望式长焦镜头。激光电视的屏幕可以卷起来吗苹果1...
日期:09-16
饭友App未经许可抓取新浪微博数据 被判侵权赔偿210万元
11月29日 消息:据知产北京公众号消息,近日,北京知识产权法院审理了一起关于数据抓取和不正当竞争的案例。复娱公司在其运营的饭友 App 中未经许可抓取了新浪微博的数据,并使用...
日期:11-29
腾势智能互联好用吗「腾势N7加推的高快智驾包都有哪些智能进阶?」
9月26日,腾势N7(参数丨图片)官宣全系车型可选装首搭新一代NVIDIA DRIVE Orin平台,这个平台能够提升腾势N7的智驾能力。那么这个平台究竟能让腾势N7的智驾水平提升到什么程度呢?一...
日期:09-29
“AI领军人物”倒在艰难时刻 百亿商汤科技未来何去何从?_商汤科技总裁
9月4日在德国慕尼黑国际车展媒体预展上拍摄的商汤科技展台。 新华社发2010年,汤晓鸥在中国科学技术大学作《从暗原色中寻找光明》报告。12月16日傍晚,一则突如其来的讣告,震动...
日期:12-20
快手修订《【发布低质量直播内容】实施细则(营销)》_快手直播规范条款
10月28日 消息:今天,快手发布《【发布低质量直播内容】实施细则(营销)》修订公告,增加对“播放录制音频”、“长时间黑屏或展示静态图片”、“大小屏直播,大屏播放录制内容”等低...
日期:10-28
抖音入局,外卖江湖将迎三足鼎立?除了业内人士,我们还问了问ChatGPT
风口财经记者 管亚楠新一轮“红包雨”又要来了?近日,关于“抖音将于3月1日上线全国外卖服务”的消息传得沸沸扬扬,尽管抖音生活服务相关负责人已回应网传全国外卖上线时间并不...
日期:02-13
2017款MacBook Pro被列为过时产品:苹果寄予厚望的Touch Bar设计引发争议
快科技9月1日消息,苹果将2017款13英寸、15英寸MacBook Pro列为过时产品。据悉,苹果会将停止发售之日起、已超过5年的设备列为过时产品,老设备不保证能在苹果Apple Store零售店...
日期:09-01
看见数字中原:中国移动打造河南5G数字化应用新范式_中国移动5g数字乡村
通信世界网消息(CWW)河南,素有“九州腹地、十省通衢”之称,不仅是承东启西、连南贯北的重要交通枢纽,也是山川秀丽、物产丰饶的矿产资源大省。如今,在加快推进新型工业化的“劲风...
日期:12-04
大屏当道,你是否还需要一部小屏的新款iPhone SE?「小屏党最后的选择?iPhone SE4曝光 或3499元起售」
  新酷产品第一时间免费试玩,还有众多优质达人分享独到生活经验,快来新浪众测,体验各领域最前沿、最有趣、最好玩的产品吧~!下载客户端还能获得专享福利哦!小新pro13 2020分辨...
日期:09-06
Apple Watch S7过热爆炸:彻底报废_苹果手表充电爆炸
外媒消息称,有一块Apple Watch S7手表疑似因为过热,在使用过程中开始冒烟,随后热来越热最终发生了爆炸,索性用户提前取下手表,这才没有炸伤,而目前苹果已经拿走了这款爆炸的手表,并...
日期:10-12
Pico Neo3 VR一体机「PICO 4系列新品发布 将推出VR版《三体》」
凤凰网科技讯 9月27日消息,PICO在中国市场正式发布新一代VR一体机——PICO 4系列,售价2499元起。这是PICO被字节跳动收购以来首次发布升级换代产品。据悉,PICO 4产品配置达到行...
日期:10-01