您的位置:首页 > 互联网

超越Sora极限,120秒超长AI视频模型诞生

发布时间:2024-03-27 15:40:47  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,授权转载发布。

UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!

Sora一出,文生视频的在长度这个指标上就卷的没边了。

从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。

最近,来自Picsart AI Research,UT Austin和Shi Labs的研究团队提出了一个新的文生视频技术——StreamingT2,可以生成高度一致而且长度可扩展的视频。

文生视频技术进入长视频时代。

图片

论文地址:https://arxiv.org/abs/2403.14773

具体来说,StreamingT2V可以生成1200帧甚至理论上无限长的长视频,并且能保证视频内容过渡非常自然平滑,内容丰富多样。

帝国士兵在烟雾中不停奔跑,虽然动作很滑稽,但是幅度很大,人物一致性很好。

它的核心构架由3个部分组成:

- 一个短期记忆单元——条件注意力模块(CAM),它能够确保视频的连贯性,通过关注前一个视频片段的特征来引导当前片段的生成;

- 一个长期记忆单元——外观保持模块,它帮助模型记住视频开头的场景和对象,防止随着时间推移而遗忘开头的场景;

- 一种随机混合技术,使得即使是无限长的视频也能保持一致性,避免了视频片段之间的不协调。

图片

而且,StreamingT2V的特点并不限定于使用特定的文生视频模型。

这意味着只要将基础模型的性能不断提高,生成的视频效果还能不断提升。

图片

效果展示

1200帧,2分钟

可以看到,在两分钟的视频中场景的动态效果很好,虽然在细微材质上还是有一些粗糙和畸变,但是整体的运动幅度基本上已经达到了Sora的水准。

和其他的长视频AI技术相比,StreamingT2V的动态效果明显好太多了。

600帧1分钟

整个镜头的晃动感有一种手持摄影机拍摄的风格,而且鸟的动作细节也很真实。

蜜蜂在花上的运动效果也很逼真,镜头运动幅度和动作幅度都很大,而且蜜蜂形态的一致性保持得也很好。

航拍镜头的运动也很合理,只是场景中的大面积的植物颜色和细节还是不太稳定。

虽然珊瑚还是会出现无中生有的情况,但是镜头运动的幅度和场景整体的一致性已经非常高了。

240帧,24秒

图片

而这个圣诞老人虽然动作显得非常鬼畜滑稽,但是一致性保持得非常好,动作幅度更是吊打大部分的文生视频模型。

对于爆炸和烟雾的处理也已经非常成熟,逼真了。

开花的动态效果非常自然,已经可以以假乱真真实的加速播放的静物运动摄影了。

80帧,8秒

在时间更短的的视频中,无论是内容的一致性和动作的自然程度和动作幅度效果都很好。

图片

图片

图片

只是在场景和环境的表现上,还有一些明显的瑕疵。

实现方法

图片

StreamingT2V技术的工作流程可以分为三个主要阶段。

首先,在初始化阶段,研究人员利用一个文本到视频的模型来创造出视频的前16帧,这相当于视频的起始段落。

接下来,进入Streaming T2V阶段,研究人员会继续生成视频的后续帧,这一过程是通过一种称为自回归的技术来实现的,意味着每一个新帧的生成都会参考之前已生成的帧,从而确保视频内容的连贯性。

最后,在Streaming Refinement阶段,研究人员对已生成的长视频(无论是600帧、1200帧还是更多)进行进一步的优化。

在这一阶段,研究人员采用了一种高分辨率的文本到短视频模型,并结合了研究人员独特的随机混合技术,这样不仅提升了视频的画质,还增强了视频的动态效果和视觉吸引力。

图片

StreamingT2V技术通过引入两个关键模块来增强视频的生成质量。

首先,条件注意力模块(CAM)充当短期记忆,它通过一个特殊的编码器分析前一个视频片段,确保视频的连续性和流畅过渡。这个机制特别适用于动作频繁的视频,使得视频看起来更加自然流畅。

其次,外观保持模块(APM)作为长期记忆,它专注于从视频的某一关键帧中提取重要的视觉特征,并将这些特征贯穿整个视频生成过程,确保视频中的对象或场景保持一致性和连贯性。

这两个模块的结合,使得StreamingT2V不仅能够生成动态连贯的视频,还能在整个视频中保持高质量的视觉效果。

条件注意力模块

它由一个特征提取器和一个特征注入器组成,并将其注入 Video-LDM UNet。

特征提取器使用帧图像编码器E cond,然后是与 Video-LDM UNet相同的编码器层,直到中间层(并使用UNet的权重初始化)。

在特征注入方面,研究人员让UNet中的每个长程跳转连接通过交叉关注来关注CAM生成的相应特征。

特征提取器使用帧图像编码器E cond,然后是与Video-LDM UNet相同的编码器层,直到中间层(并使用UNet的权重初始化)。

在特征注入方面,研究人员让UNet中的每个长程跳转连接通过交叉关注来关注 CAM 生成的相应特征。

CAM利用前一个分块的最后F个条件帧作为输入。交叉关注可将基础模型的F帧条件化为CAM。相比之下,稀疏编码器使用卷积进行特征注入。

外观保存模块

自回归视频生成器通常会遗忘初始对象和场景特征,从而导致严重的外观变化。

为了解决这个问题,研究人员利用研究人员提出的外观保存模块(Appearance Preservation Module,APM),通过利用第一个片段的固定锚帧所包含的信息,将长期记忆纳入其中。这有助于在各代视频块中保持场景和物体特征(见下图6)。

自动回归视频增强

为了进一步提高文本-视频结果的质量和分辨率,研究人员利用高分辨率(1280x720)文本-(短)视频模型(Refiner Video-LDM,见图3)对生成的24帧视频块进行自回归增强。

使用文本到视频模型作为24帧视频块的提炼器/增强器,是通过在输入视频块中添加大量噪声,并使用文本到视频扩散模型进行去噪来实现的。

更确切地说,研究人员使用一个高分辨率文本到视频模型(例如MS-Vid2Vid-XL)和一个24帧的低分辨率视频块,首先将其双线性放大到目标高分辨率。

然后,研究人员使用图像编码器E对帧进行编码,从而得到潜码。然后,研究人员应用T ′ < T前向扩散步骤,使xT′仍然包含信号信息(主要是视频结构信息),并使用高分辨率视频扩散模型对其进行去噪。

评估

关于抖音运营的图书

在定量评估方面,研究人员采用了一些指标来评估研究人员方法的时间一致性、文本对齐和每帧质量。

在时间一致性方面,研究人员引入了SCuts,即使用PySceneDetect软件包中的AdaptiveDetector算法和默认参数,计算视频中检测到的场景切割次数。

此外,研究人员还提出了一种名为运动感知翘曲误差(MAWE)的新指标,该指标能连贯地评估运动量和翘曲误差,当视频同时表现出一致性和大量运动时,该指标就会产生一个低值。

为此,研究人员使用OFS(光流得分)来测量运动量,它可以计算视频中任意两个连续帧之间所有光流向量的平均值。

此外,对于视频V,研究人员还考虑了平均翘曲误差W(V),该误差测量了从帧到其翘曲后的平均L2像素距离平方。

图片

其中,c对齐了两个指标的不同尺度。为此,研究人员对数据集验证视频的一个子集进行了回归分析,得出c =9.5。

MAWE要求高运动量和低翘曲误差,以获得较低的指标值。对于涉及光流的指标,计算时将所有视频的大小调整为720×720分辨率。

在视频文本对齐方面,研究人员采用了CLIP文本图像相似度得分(CLIP),它适用于视频的所有帧。CLIP计算视频序列中CLIP文本编码与CLIP图像编码之间的余弦相似度。

对于每个帧的质量,研究人员在视频所有帧的CLIP图像嵌入基础上计算出美学分数。

图片

所有指标都是先按视频计算,然后对所有视频求平均值,所有视频都生成了80帧用于定量分析。研究人员将StreamingT2V与主流的视频生成模型和构架在这个框架下进行了比较。

可以看到(上图),在这个针对时间一致性、文本对齐和每帧质量的测试集上,StreamingT2V的成绩确实是最好的。

参考资料:

https://streamingt2v.github.io/


返回网站首页

本文评论
2030年将正式停售燃油车,哈弗全面转型新能源「哈弗新车即将爆发性上市」
  8月22日,长城品牌新能源战略发布会开幕,哈弗汽车正式宣布开启新能源转型,同时发布了全新品牌LOGO。与此同时,第三代哈弗H6 DHT混动版车型与广大消费者正式见面。其中,第三代...
日期:09-05
绿源、松果牌部分电动自行车召回 原因均是后尾灯反光
与汽车类似,电动自行车作为消费品,出现质量或者其它合规性问题,也需要被召回。今日,国家市场监督管理总局官网显示,天津信和恒业智能科技有限公司主动进行产品召回,自即日起,召回20...
日期:12-09
小黄车押金  要退3年?(小黄车押金要退3年)
  (原标题:小黄车押金,要退3年?!当初我们交的10亿元,到底去哪儿了?)   在“共享出行”的风口过后,给我们留下了什么?有哪些经验和教训?   去年年底,拥有共享单车数量最多...
日期:05-04
中兴通讯的兄弟IPO,比亚迪曾贡献6成营收_中兴通讯股份占比
比亚迪“奶”出一个锂电隔膜龙头作者 | 于婞编辑丨李白玉来源 | 野马财经作为锂离子电池的四大主材之一,锂电隔膜是一种用来隔离电池正负极,以防止两极直接接触而发生短路,但允...
日期:08-14
华为发布F5G Advanced系列场景化解决方案,筑基行业智能化_华为f566
华为发布F5G Advanced系列场景化解决方案,筑基行业智能化 通信产业网|2024-02-27 14:51:29作者:通文来源:通信产业网2024年世界移动大会(MWC 2024)期间,在欧洲知名咨询机构IDATE举...
日期:02-27
养了一只“爹宝狗”是什么体验?宠博@嘻哈不拆 的生存指南_爹爹狗是什么品种
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:来生,授权转载发布。“嗨~爹地”“嗨~妈咪”伴随着熟悉的开场问候,一只热情粘人的哈士奇奔向它的“爸爸”,随后哈士...
日期:12-18
谷歌宣布停止对谷歌中国搜索服务的“过滤审查”_谷歌搜索无法关闭安全过滤
  #离开# 3月18日上午11点16分,香港凤凰卫视记者闾丘露薇发布了一条微博:“收到朋友转来的消息,据说Google(谷歌)4月10日离开中国”。3月23日凌晨2点30分左右,Google.cn域名跳...
日期:07-25
「小米平板 SE 11寸金属平板曝光 「待机73.2天」」「小米平板21511」
来源:中关村在线赞麦源选怎么样国美真快乐最新资讯Redmi Note 13 Pro系列和全新平板Redmi Pad SE将在9月21日正式发布。据官方预热海报显示, Redmi Pad SE与前代产品相似,采...
日期:09-15
搭载天玑9200+ 跑分有望突破140万 「Redmi」-K60 Ultra配置细节曝光
去年底,Redmi推出了Redmi K60系列机型,包含Redmi K60和K60 Pro两个版本,全系采用2K直屏,并分别搭载骁龙8+和第二代骁龙8旗舰平台,性价比几乎同级别无敌,在刚刚过去的618大促中,该机...
日期:09-12
三川智慧董事长一行莅临摩天之星参观考察_三川智慧高管
  2020年11月,三川智慧科技股份有限公司董事长李建林和董事会成员郑田田一行莅临摩天之星参观考察。摩天之星董事长李厚德先生于总部地王大厦39楼,热情接待了这次来访。  ...
日期:07-16
超14亿美元!《阿凡达2》票房达到回本线 你贡献了几张票?_阿凡达2多少票房
《阿凡达2》全球票房在本周一(1月2日)突破14亿美元。《综艺》最新报道也透露:消息源称该片的回本线也是14亿美元左右达到收支平衡。据悉,导演卡梅隆曾模糊地透露过《阿凡达2》...
日期:01-02
百度统计喻友平谈如何更好的优化网站质量
  安徽互联网联盟主办站长俱乐部协办,老K主持的千人站长讲座已经到第65期了,本期请到的站长嘉宾是百度统计(tongji.baidu.com)的产品经理 喻友平 百度统计是百度推出的一款稳...
日期:07-29
荣耀magic3 保时捷「赵明首谈荣耀Magic6 RSR保时捷设计:不对标华为非凡大师」
快科技2月26日消息,在MWC 2024发布会上,荣耀在海外市场推出了荣耀Magic V2 RSR保时捷设计、荣耀Magic6 Pro等机型。同时,荣耀还宣布荣耀Magic6 RSR保时捷设计将于3月正式发布。...
日期:02-27
郑州200多车相撞 雾天驾车开雾灯还是双闪灯?网友吵翻「汽车雾灯爆闪被交警抓到」
昨日上午,连接河南郑州、新乡的郑新黄河大桥(107国道)上发生多车连环相撞的事故。消防、急救、交警第一时间赶赴现场紧急处理,救援人员初步统计涉及车辆200多辆。而导致此次事...
日期:12-29
5g手机可以关闭5g用4g吗「不能切4G网络了!多家手机厂商已取消5G开关,不过都留了一手...」
据多家媒体报道,多位用户反馈,自己的手机在更新系统之后,系统设置里的 4G 和 5G 切换开关消失了,只能默认使用 5G 网络。有消息源表示,这可能是运营商的统一要求,目的为了提高用户...
日期:11-10
SOLAR10.7B大模型屠榜HuggingFace  创新性拼接两个羊驼,高效集成
12月29日 消息:深度学习领域的新技术近日在HuggingFace的大模型排行榜中崭露头角,由Upstage AI提出的深度扩展方法(DUS)在SOLAR10.7B大模型上取得了令人瞩目的成绩。该技术通过...
日期:12-30
新零售春茶季,顺丰同城急送让新鲜1小时直达!
  茶叶自古以来就是各地区商贸往来的重要货品,每当春暖花开之时,一年一度茶叶市场的重头戏——“春茶季”也拉开序幕,茶农和茶商到了最忙碌的时节。   随着互联网的普及与...
日期:07-10
FF将于 3 月 8 日收市后发布 2022 年第四季度财报「ff最新市值」
3 月 3 日讯:FF宣布将于美国东部时间 3 月 8 日收市后发布 2022 年第四季度及 2022 年年度财务业绩报告,并在同天美国东部时间下午8:00(北京时间 2023 年 3 月 9 日早9:00)举行电...
日期:03-03
「手车互联助力领克08预售开启 「魅族20」,PRO 领克时间系列联名款手机正式亮相」
来源:中关村在线2023年8月8日,魅族20PRO 领克时间系列联名款手机正式亮相,与搭载FlymeAuto 智能座舱操作系统的豪华智享超电SUV领克08共创手车互联新生态,定义智能汽车手机域,开...
日期:09-03
四大运营商全网5G套餐用户数已破12亿 你开通了没?
4月21日讯,在用5G手机的你,开通5G套餐了吗?随着三大运营商公布3月份运营数据,整理发现,截止3月底,全网5G套餐用户数已经突破12亿。其中,中国移动5G套餐客户数累计达到6.89235亿户,中...
日期:10-02