您的位置:首页 > 互联网

剑指Sora!120秒超长AI视频模型免费开玩

发布时间:2024-04-14 15:05:49  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时,作为开源世界的强大组件,StreamingT2V可以无缝兼容SVD和animatediff等模型。

120秒超长AI视频模型来了!不但比Sora长,而且免费开源!

近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,同时质量也很不错。

论文地址:https://arxiv.org/pdf/2403.14773.pdf

Demo试用:https://huggingface.co/spaces/PAIR/StreamingT2V

开源代码:https://top.aibase.com/tool/streamingt2v

并且,作者表示,两分钟并不是模型的极限,就像之前Runway的视频可以延长一样,StreamingT2V理论上可以做到无限长。

在Sora之前,Pika、Runway、Stable Video Diffusion(SVD)等视频生成模型,一般只能生成几秒钟的视频,最多延长到十几秒,

Sora一出,60秒的时长直接秒杀一众模型,Runway的CEO Cristóbal Valenzuela当天便发推表示:比赛开始了。

——这不,120秒的超长AI视频说来就来了。

这下虽说不能马上撼动Sora的统治地位,但至少在时长上扳回一城。

更重要的是,StreamingT2V作为开源世界的强大组件,可以兼容SVD和animatediff等项目,更好地促进开源生态的发展:

通过放出的例子来看,目前兼容的效果还稍显抽象,但技术进步只是时间的问题,卷起来才是最重要的~

总有一天我们都能用上开源的Sora,——你说是吧?OpenAI。

免费开玩

目前,StreamingT2V已在GitHub开源,同时还在huggingface上提供了免费试玩,等不了了,小编马上开测:

不过貌似服务器负载太高,上面的这个不知道是不是等待时间,反正小编没能成功。

目前试玩的界面可以输入文字和图片两种提示,后者需要在下面的高级选项中开启。

两个生成按钮中,Faster Preview指的是分辨率更低、时长更短的视频。

阿里云83行代码重构

小编于是转战另一个测试平台(https://replicate.com/camenduru/streaming-t2v),终于获得一次测试机会,以下是文字提示:

iphone年出货量

A beautiful girl with short hair wearing a school uniform is walking on the spring campus

不过可能由于小编的要求比较复杂,导致生成的效果多少有点惊悚,诸位可以根据自己的经验自行尝试。

以下是huggingface上给出的一些成功案例:

小米官方新媒体平台

StreamingT2V

世界名画

Sora的横空出世曾带来巨大的轰动,使得前一秒还闪闪发光的Pika、Runway、SVD等模型,直接变成了前Sora时代的作品。

不过就如同StreamingT2V的作者所言,pre-Sora days的模型也有自己的独特魅力。

模型架构

StreamingT2V是一种先进的自回归技术,可以创建具有丰富运动动态的长视频,而不会出现任何停滞。

它确保了整个视频的时间一致性,与描述性文本紧密对齐,并保持了高帧级图像质量。

现有的文本到视频扩散模型,主要集中在高质量的短视频生成(通常为16或24帧)上,直接扩展到长视频时,会出现质量下降、表现生硬或者停滞等问题。

AI生成视频

而通过引入StreamingT2V,可以将视频扩展到80、240、600、1200帧,甚至更长,并具有平滑过渡,在一致性和运动性方面优于其他模型。

StreamingT2V的关键组件包括:

(i)称为条件注意力模块(CAM)的短期记忆块,它通过注意机制根据从前一个块中提取的特征来调节当前一代,从而实现一致的块过渡;

(ii)称为外观保留模块(APM)的长期记忆块,它从第一个视频块中提取高级场景和对象特征,以防止模型忘记初始场景;

(iii)一种随机混合方法,该方法能够对无限长的视频自动回归应用视频增强器,而不会出现块之间的不一致。

上面是StreamingT2V的整体流水线图。在初始化阶段,第一个16帧块由文本到视频模型合成。在流式处理 T2V 阶段中,将自动回归生成更多帧的新内容。

最后,在流优化阶段,通过应用高分辨率文本到短视频模型,并配备上面提到的随机混合方法,生成的长视频(600、1200帧或更多)会自动回归增强。

上图展示了StreamingT2V方法的整体结构:条件注意力模块(CAM)作为短期记忆,外观保留模块(APM)扩展为长期记忆。CAM使用帧编码器对前一个块上的视频扩散模型(VDM)进行条件处理。

CAM的注意力机制保证了块和视频之间的平滑过渡,同时具有高运动量。

APM从锚帧中提取高级图像特征,并将其注入到VDM的文本交叉注意力中,这样有助于在视频生成过程中保留对象/场景特征。

条件注意模块

研究人员首先预训练一个文本到(短)视频模型(Video-LDM),然后使用CAM(前一个区块的一些短期信息),对Video-LDM进行自回归调节。

CAM由一个特征提取器和一个特征注入器组成,整合到Video-LDM的UNet中,特征提取器使用逐帧图像编码器 E。

对于特征注入,作者使UNet中的每个远程跳跃连接,都关注CAM通过交叉注意力生成的相应特征。

CAM使用前一个块的最后一个Fconditional帧作为输入,交叉注意力能够将基本模型的F帧调节为CAM。

相比之下,稀疏编码器使用卷积进行特征注入,因此需要额外的F − Fzero值帧(和掩码)作为输入,以便将输出添加到基本模型的F帧中。这会导致SparseCtrl的输入不一致,导致生成的视频严重不一致。

外观保存模块

自回归视频生成器通常会忘记初始对象和场景特征,从而导致严重的外观变化。

为了解决这个问题,外观保留模块(APM)利用第一个块的固定锚帧中包含的信息来整合长期记忆。这有助于在视频块生成之间维护场景和对象特征。

为了使APM能够平衡锚帧的引导和文本指令的引导,作者建议:

(i)将锚帧的CLIP图像标记,与文本指令中的CLIP文本标记混合,方法是使用线性层将剪辑图像标记扩展到k =8, 在标记维度上连接文本和图像编码,并使用投影块;

(ii) 为每个交叉注意力层引入了一个权重α∈R(初始化为0),以使用来自加权总和x的键和值,来执行交叉注意力。

自动回归视频增强

为了进一步提高文本到视频结果的质量和分辨率,这里利用高分辨率(1280x720)文本到(短)视频模型(Refiner Video-LDM)来自动回归增强生成视频的24帧块。

使用文本到视频模型作为24帧块的细化器/增强器,是通过向输入视频块添加大量噪声,并使用文本到视频扩散模型去噪来完成的。

然而,独立增强每个块的简单方法会导致不一致的过渡:

作者通过在连续块之间使用共享噪声,并利用随机混合方法来解决这个问题。

对比测试

上图是DynamiCrafter-XL和StreamingT2V的视觉比较,使用相同的提示。

X-T切片可视化显示,DynamiCrafter-XL存在严重的块不一致和重复运动。相比之下,StreamingT2V则可以无缝过渡、不断发展。

现有方法不仅容易出现时间不一致和视频停滞,而且随着时间的推移,它们会受到物体外观/特征变化,和视频质量下降的影响(例如下图中的SVD)。

原因是,由于仅对前一个块的最后一帧进行调节,它们忽略了自回归过程的长期依赖性。

在上图的视觉比较中(80帧长度、自回归生成视频),StreamingT2V生成长视频而不会出现运动停滞。

AI长视频能做什么

马斯克推特转发

各家都在卷的视频生成,最直观的应用场景,可能是电影或者游戏。

用AI生成的电影片段(Pika,Midjourney,Magnific):

Runway甚至搞了个AI电影节:

不过另一个答案是什么呢?

世界模型

长视频创造的虚拟世界,是Agent和人形机器人最好的训练环境,当然前提是足够长,也足够真实(符合物理世界的逻辑)。

也许未来的某一天,那里也会是我们人类的生存空间。


返回网站首页

本文评论
特斯拉model y标准版交付时间_特斯拉中国Model Y后轮驱动版交付时间缩短为4至8周
讯 8月18日上午消息,据特斯拉中国官网显示,特斯拉Model Y 后轮驱动版预计交付时间已缩短为4-8周,此前预计交付时间为8-12周。 微软手表联想thinkpadx13三星note9是oled屏幕吗...
日期:08-20
三星siv「三星146英寸The Wall为迪拜旅客打造奢华度假体验」
近日,三星宣布为迪拜朱美拉棕榈岛的皇家亚特兰蒂斯酒店配备了业界领先的显示屏,包括安置于室内外的The Wall与其他商用显示屏。这家被称为世界顶 级度假胜地之一的度假酒店于...
日期:04-23
专注演戏?《狂飙》主演张颂文仅关联一家影视公司「张颂文是导演吗」
2月2日 消息:近期,反黑刑侦剧《狂飙》大火,剧中人物及热梗多次登上热搜,该剧主演之一张颂文也受到关注。企查查APP显示,张颂文关联公司为厦门市思明区张颂文影视文化工作室,成立...
日期:02-02
联想thinkpad e430「联想thinkpad E430C二手价格」
联想ThinkPad E430是一款高性能、稳定性和可靠性的笔记本电脑,是联想旗下ThinkPad系列中的一员。这款笔记本电脑的设计重点是各项细节以及整机的可维护性,让用户在使用中更加...
日期:05-31
绝世好屏来袭!iQOO 11将全系全球首发2K 144Hz E6全感屏「iqoo5 直屏」
据iQOO手机官方日前官宣,iQOO全新的数字系列旗舰——iQOO11系列将于12月2日下午14:00正式发布,将首批搭载高通第二代骁龙8移动平台,目前已在官网等合作电商平台上架开启预约。...
日期:12-01
广汽总经理:为电池材料厂打长工不现实 我们车企他们永远得罪不起
快科技6月11日消息,2023世界动力电池大会于日前举办,广汽埃安新能源汽车有限公司副总经理席忠民在大会上发表主题演讲时表示:(材料厂)想让我们打长工,但这是不现实的。头部企业的...
日期:06-11
中国联通携手产业合作伙伴完成全球首次RedCap端网兼容性现网测试_中国联通ipcc官网
通信世界网消息(CWW)近日,中国联通携手移远通信基于高通骁龙X35平台在上海嘉定华为网络下率先完成3.5GHz、2.1GHz、900MHz 中国联通5G全频段 RedCap端网兼容性现网测试,为5G Red...
日期:08-03
河间市智能制造创新服务中心启用时间「河间市智能制造创新服务中心启用」
通信世界网消息(CWW)日前,河间市智能制造创新服务中心正式启用,作为县域工业互联网平台建设典范,平台主要面向当地保温新材料、特色装备制造、再制造等产业集群编织“智慧之网”,...
日期:08-14
芯片价格飙涨五倍_部分芯片价格暴跌!200元降至20元
央视财经   今年以来,芯片荒问题虽然比去年有所好转,但有些领域的芯片仍然供应偏紧,针对芯片市场上的新变化,有的企业不断扩大产能,有的企业则转型至新的赛道。   随着近几...
日期:08-16
亚马逊云科技中国北京与宁夏两个区域实现100%采用可再生能源「亚马逊云科技地址」
【】8月9日消息,在《亚马逊2022年度可持续发展报告》中,亚马逊宣布2022年亚马逊云科技全球19个区域已经实现100%采用可再生能源,由西云数据运营的亚马逊云科技中国(宁夏)区域和光...
日期:09-18
马斯克也爱 “天才少年”!14 岁神童,年薪百万,SpaceX 史上最年轻工程师
声明:本文来自于微信公众号 CSDN(ID:CSDNnews),整理 | 郑 丽 媛,授权转载发布。峰米极米坚果投影仪哪个好本月,马斯克的太空探索公司 SpaceX,迎来了一位十分“特别”的新员工:Kair...
日期:06-13
我国科学家研制出首个全模拟光电智能计算芯片_谁研制出我国第一台光学传递函数测试装置
通信世界网消息(CWW)经长期联合攻关,清华大学研究团队突破传统芯片的物理瓶颈,创造性提出光电融合的全新计算框架,并研制出国际首个全模拟光电智能计算芯片(简称ACCEL)。经实测,该芯...
日期:11-07
网易云音乐2020年度报告入口「网易云音乐发布2022年财报:全年收入达90亿 增长28.5%」
2月23日,网易云音乐披露2022年全年业绩公告。财报显示,网易云音乐2022年全年净收入为90亿元,较2021年同比增长28.5%。得益于盈利能力提高、内容优化及版权结构的成本优化,于2022...
日期:02-26
通付盾荣获2019年度金融科技创新突出贡献奖(2020年度金融服务创新奖)
  昨日,由《金融电子化》杂志社主办的“2019中国金融科技年会暨第十届金融科技及服务优秀奖颁奖典礼”开幕。本次盛会以“致敬时代· 致敬创新”为主题,对过去一年在金融科...
日期:07-15
苹果公司申请注册PINEAPPLE商标:涉科学仪器、建筑修理等领域
快科技8月22日消息,苹果公司最近申请注册多枚PINE APPLE”商标,国际分类涉及科学仪器、广告销售、建筑修理,当前商标状态均为申请中。PINEAPPLE”在中文中的意思是菠萝或凤梨。...
日期:08-23
iPhone 13到手4388 立减800 双11限购「双11苹果13打折吗」
iPhone 13已经发售一年,但是热度丝毫不减,现在今年双11依然是苹果的促销主力机型,,今年11·11的双十一价立减800元,到手现在只要4388元,虽然iPhone 14系列发布了,用户对于iPhone 13...
日期:11-03
湖北移动开通全国首个5G低频双模试点站_湖北移动5g建设
通信世界网消息(CWW)近日,中国移动湖北公司在湖北省松滋市刘家场镇吴家包村成功开通全国首个低频4/5G双模5G基站,标志着4/5G网络共建共存的移动通信系统进入了一个全新的阶段。(...
日期:12-29
老马和小扎,要把40亿人带进Web3
亚马逊电商份额ipad mini5屏幕供应商   出品|虎嗅科技组   作者|周舟   头图|视觉中国   一个奇怪的国际现象正在互联网行业发生,腾讯(中国最大的社交公司)、Meta(美国最大...
日期:08-15
Redmi K50至尊版跌破2500 K60 Ultra要来了!「redmi k50价格」
Redmi即将发布K60系列终极之作K60 Ultra,本月将会正式发布,就等小米官宣了,而目前Redmi K50 Ultra价格已经下调。Redmi K50 Ultra 12GB 512GB顶配版降至2473元,该机采用了1.5K直...
日期:07-15
iQOO Z8发布: 天玑8200 5000mAh大电池 售1599元起
凤凰网科技讯(作者/卡尔)8月31日消息,iQOO发布全新一代千元机Z8系列,两款机型分别为搭载天玑 8200 处理器的iQOO Z8,以及搭载高通第一代骁龙6和6000mAh电池的iQOO Z8x,最低119...
日期:09-01