您的位置:首页 > 互联网

汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24

发布时间:2024-01-25 20:17:54  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:丰色,授权转载发布。

想要AI生成更长的视频?

现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。

它最长可支持512帧(假设帧率按30fps算,理论上那就是能生成约17秒长的作品了)。

可应用于任何视频生成模型,比如AnimateDiff、LaVie等等。

以及还能支持多文本生成,比如可以让骆驼一会跑一会停:

(提示词:”A camelrunningon the snow field.” -> “……standing……”)

这项成果来自腾讯AI Lab、南洋理工大学以及港科大,入选了ICLR2024。

值得一提的是,与此前业内性能最佳的同类方法带来255%的额外时间成本相比,它仅产生约17%的时间成本,因此直接可以忽略不计。

可以说是成本和性能两全了~

具体来看看。

通过重新调度噪声实现

该方法主要解决的是两个问题:

一是现有视频生成通常在有限数量的帧上完成训练,导致推理过程中无法生成高保真长视频。

二是这些模型还仅支持单文本生成(即使你给了“一个人睡在桌子上,然后看书”这种提示词,模型也只会响应其中一个条件),而应用到现实中其实是需要多文本条件,毕竟视频内容是会随时间不断变化的。

在此,作者首先分析视频扩散模型的时间建模机制,并研究了初始噪声的影响,提出免调优、实现更长视频推理的FreeNoise。

具体而言,以VideoLDM模型为例,它生成的帧不仅取决于当前帧的初始噪声,还取决于所有帧的初始噪音。

印度尼西亚首富排行榜

这意味着,由于临时注意力层负责促成整个交互,所以对任何帧的噪声重新采样都会显著影响其它帧。

产生的问题就是我们要想保持原视频主要内容的同时引入新东西就很难。

在此,作者检查VideoLDM的时间建模机制发现,其中的时间注意力模块是顺序无关的,而时间卷积模块是顺序相关的。

实验观察表明,每帧噪声是决定视频整体外观的基础,而它们的时间顺序会影响建立在该基础上的内容。

受此启发,作者提出了FreeNoise,其关键思想是构建一个具有长程相关性的噪声帧序列,并通过基于窗口的融合对其进行时间关注。

它主要包括两个关键设计:局部噪声去除和基于窗口的注意力融合。

通过将局部噪声混洗应用于固定随机噪声帧序列以进行长度扩展,作者实现了具有内部随机性和长程相关性的噪声帧序列。

同时,基于窗口的注意力融合使预先训练的时间注意力模块能够处理任何较长的帧。

并且最重要的是,重叠窗口切片和合并操作只发生在时间注意力上,而不会给VideoLDM的其他模块带来计算开销,这也大大提高了计算效率。

接下来,为了解决多文本条件问题,作者则提出了动作注入(Motion Injection)方法。

社区O2O平台

其核心利用的是扩散模型不同步骤在去噪过程中恢复不同级别信息(图像布局、物体形状和精细视觉细节)的特性。

在模型完成上一个动作之后,该方法就在与物体形状相关的时间步长内逐渐注入新的运动。

h310主板集成显卡

这样的操作,既保证多提示长视频生成,又具备很好的视觉连贯性。

超越此前最先进的无调优方法

首先来看长视频生成的结果。

可以看到,FreeNoise诠释“宇航服吉娃娃”和“熊猫吃披萨”这两个场景最为连贯自然。

相比之下,直接推理的(最左列)的狗有严重伪影且没有生成背景,Gen-L-Video(此前最先进的无调优方法)则由于无法保持长距离的视觉一致性,存在明显内容突变。

定性结果也用数据证明了FreeNoise的效果:

其中CLIP-SIM的得分代表该方法做到了良好的内容一致性。

其次是多文本条件生成效果。

可以看到该方法(中间列和最右列)可以实现连贯的视觉显示和运动:

骆驼从奔跑逐渐变为站立,远处的山脉一直保持同样的外观。

定性结果如下:

可以看到该方法在内容一致性、视频质量和视频文本对齐都实现SOTA,且与第二名拉开的差距几乎达到两倍之多。

最后,再给大家展示一下FreeNoise用在潜视频扩散模型AnimateDiff、LaVie上的效果。

AnimateDiff:

第一列为原效果,第二列为应用后的效果。

LaVie:

鹿客指纹锁网关

效果提升都是肉眼可见的~

哦对,还有生成的满打满算512帧的视频,大家觉得效果如何呢:

通讯作者之一是汤晓鸥弟子

本文一共7位作者。

一作为南洋理工大学计算机科学与工程学院博士生邱浩楠。

他的研究方向为AIGC、对抗性机器学习和深伪检测,本科毕业于港中文。

通讯作者有两位:

一位是腾讯AI Lab视觉计算中心研究员Menghan Xia。

他的研究方向为计算机视觉和深度学习,尤其是图像/视频的生成和翻译。

Menghan Xia博士毕业于港中文,本硕先后毕业于武汉大学的摄影测量与遥感学、模式识别与智能系统专业。

另一位是南洋理工大学计算机科学与工程学院助理教授刘子纬。

他2017年博士毕业于港中文,师从汤晓鸥教授和王晓刚教授。

毕业后曾在UC伯克利做博士后、港中文担任四年研究员。

论文:

https://arxiv.org/abs/2310.15169

Huggingface体验demo:

https://huggingface.co/spaces/MoonQiu/LongerCrafter

—完—


返回网站首页

本文评论
思科自研芯片「与博通Marvell正面竞争,思科推出新AI网络芯片」
北京时间 6 月 21 日早间消息,思科推出面向 AI 超级计算机的网络芯片,新芯片将与博通和 Marvell 的产品正面竞争。新芯片属于思科 SiliconOne 系列,6 大主要云计算提供商有 5...
日期:09-23
招聘平台Indeed宣布裁员2200人 市场招聘需求减弱_indeed招聘网站怎么样
3月23日消息,当地时间周三网上招聘平台Indeed表示,预计将裁员约2200人,占公司员工总数的15%。京东方成苹果第三大柔性oled如今,经济走势不确定性带来的负面影响已经波及各行各业...
日期:10-05
游戏美术 知乎「AI冲击下谁会失业?第一波游戏美术或已转完岗了」
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。OpenAI旗下由人工智能驱动的多模态大语言模型ChatGPT,仅仅只用不到半年的时间就让AI重新成为了“...
日期:04-17
中兴通迅5g「双双获奖!中兴通讯全栈自研车规级5G模组与车用OS再获行业认可」
通信世界网消息(CWW)近日,在中国智能网联汽车创新成果大会(CICVIAC2023)上,“中兴通讯全栈自研车规级5G模组”及“车用操作系统”荣获创新成果奖,充分体现了中兴通讯在ICT领域的...
日期:06-21
智能清洁产品「智能清洁领域之变,时代风口下谁能加冕?」
还记得诺基亚吗?在触屏手机尚未普及的时代,诺基亚在手机领域有着绝对的统治地位,几乎人手一部。但曾经的一枝独秀,帝国倒塌也不过旦夕之间,最终被后起之秀无情收割。诺基亚的教训...
日期:12-20
爱奇艺的终局,不是奈飞「奈飞原创剧集什么意思」
声明:本文来自于微信公众号银杏科技(ID:yinxingcj),作者:夏天,授权转载发布。redmi k40骁龙888“即使是Netflix,也不可能永远拒绝广告”美国NBC环球公司广告主管2019年的一则调侃...
日期:11-13
大数据安全分析竞赛_DataCon冠军出炉 | 国内首个大数据安全分析比赛在数博会期间收官
  由中国国际大数据产业博览会组委会、贵州省公安厅指导,奇安信集团、清华大学主办,贵州师范大学协办的国内首个大数据安全分析比赛---DataCon大数据安全分析比赛线下决赛...
日期:07-26
爱国者申请新顶级域名 “国际象棋”+“炮”的妙杀
  自6月20日,互联网名称与数字地址分配机构(ICANN)宣布正式批准新顶级域名后仅一个多月,一场围绕着新顶级域名的争夺战已激烈打响,除众多世界级企业宣布申请企业品牌的新顶...
日期:07-22
荣耀v系列百度百科「荣耀V Purse亮相:8.6mm超薄机身刷新折叠屏纪录」
快科技9月19日消息,荣耀V Purse正式亮相,该机再次刷新折叠屏的轻薄纪录。据悉,荣耀V Purse折叠起来只有8.6mm,展开状态下的厚度是4.3mm,是目前行业内最薄的折叠屏手机,堪称手机界...
日期:09-20
苹果se配置_苹果se3配置
苹果SE(Second Edition)是苹果公司推出的经典旗舰款手机。这款手机融合了经典设计和现代技术。它采用了A13仿生芯片,并搭载了最新的iOS操作系统。同时,它还具有先进的相机和高品...
日期:06-03
骁龙8 Gen2架构及频率曝光:性能提升10%_骁龙8cx Gen2
9月28日晚消息,数码达人i冰宇宙给出消息,SM8550芯片也就是骁龙8 Gen2采用1+2+2+3架构,目前的CPU频率是2.84Hz、2.4GHz、2.4Ghz和1.8GHz。海信电视开售u8h戴尔笔记本最大的屏幕...
日期:10-02
暴雪过后「暴雪国服:出走半生,归来仍是易家人?」
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),文 | 星晖,编| 园长,授权转载发布。顶流复婚局,但是游戏圈。狼又来了。2023年12月25日,在暴雪游戏退出中国市场将近一年之时...
日期:12-30
销量登顶刷榜 TCL卧室新风空调用“小蓝翼”开启睡眠新模式
  伴随炎夏席卷全国,空调无疑成为全民618期间最有意愿升级焕新的家电之一。而随着全民健康需求越发强烈,新风空调逐渐成为这个618的空调焕新首选,其中占据C位的当属专为健康...
日期:07-14
海关查获16305张SD存储卡:藏在电瓶车前后轮胎内
7月27日消息,要想人不知除非己莫为,想要通过非法手段获得利益,就要做好被查处的准备。据海关发布官方消息,近日在深圳海关所属沙头角海关在沙头角边境特别管理区,一女子手推电单...
日期:07-27
滴滴试行选择路线功能 乘客可自主选择出行路线_滴滴选择路线功能在哪里
  3月4日下午消息,滴滴今日在快车、优享试行“选择路线”功能,用户可在App中自主选择车辆行驶路线。该功能是旨在更好地帮助乘客选择路线,便于司乘快速沟通,有效避免因行车路...
日期:09-07
聚力“数字化建设”, 阿尔法蛋 AI 学前教育解决方案亮相中国教装展
4 月 21 日至 23 日,作为教育装备行业“风向标”的第八十一届中国教育装备展示会(后称“中国教装展”)在南昌绿地国际博览中心举行。秉承“人工智能助力学前教育数字化建设”...
日期:04-25
不卷价格,死磕用户体验,@潮爸老刘 为何主打优质服务这张牌?
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。“收到的橙子太酸了,怎么跟直播时说的不一样?”“这橙子口感偏酸,有点失望了。”“橙子吃起来...
日期:12-22
华为折叠屏真机亮相 关晓彤代言_华为的折叠屏是谁的
中关村在线消息:今天,华为终于预热了新机Pocket S,在华为公布的预热视频中,代言人关晓彤手持新机向大家作出展示。Pocket S延续了前代机型的经典设计,依旧采用竖向翻折设计,看上去...
日期:10-30
我国运营商5G投资超4016亿元:5G资费很难大降了_5G资费下降
.tech-quotation{padding:20px 20px 0px;background:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom...
日期:08-16
全国职业技能大赛选择亚马逊云科技提供世赛选拔项目云计算赛项竞赛平台
【】8月30日消息,亚马逊云科技宣布,在中华人民共和国第二届职业技能大赛(以下简称“国赛”)组织的技术供应商遴选上,亚马逊云科技职业教育云计算竞赛实训平台被选作世赛选拔项...
日期:09-16