您的位置:首页 > 互联网

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

发布时间:2024-01-14 23:07:34  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。

近期,由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布,该研究引入了一个创新的图像到视频转换方法,提出了一种轻量级适配器模块,即 I2V-Adapter,它能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。

  • 论文地址:https://arxiv.org/pdf/2312.16693.pdf

  • 项目主页:https://i2v-adapter.github.io/index.html

  • 代码地址:https://github.com/I2V-Adapter/I2V-Adapter-repo

相比于现有方法,I2V-Adapter 大幅减少了可训练参数(最低可达22M,为主流方案例如 Stable Video Diffusion [1] 的1%),同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 模型(DreamBooth [3]、Lora [4])与控制工具(ControlNet [5])的兼容性。通过实验,研究者证明了 I2V-Adapter 在生成高质量视频内容方面的有效性,为 I2V 领域的创意应用开辟了新的可能性。

方法介绍

iphone13和iPhone14

Temporal modeling with Stable Diffusion

相较于图像生成,视频生成的独特挑战在于建模视频帧间的时序连贯性。现有大多数方案都基于预训练的 T2I 模型(例如 Stable Diffusion 和 SDXL [6])加入时序模块对视频中的时序信息进行建模。受到 AnimateDiff [7] 的启发,这是一个最初为定制化 T2V 任务而设计的模型,它通过引入与 T2I 模型解耦的时序模块建模了时序信息并且保留了原始 T2I 模型的能力,能够结合定制化 T2I 模型生成流畅的视频。于是,研究者相信预训练时序模块可以看作是通用时序表征并能够应用于其他视频生成场景,例如 I2V 生成,且无需任何微调。因此,研究者直接利用预训练 AnimateDiff 的时序模块并保持其参数固定。

Adapter for attention layers

I2V 任务的另一难点在于保持输入图像的 ID 信息,现有方案大多使用一个预训练的图像编码器对输入图像进行编码,并将此编码后的特征通过 cross attention 注入至模型中引导去噪的过程;或在输入端将图像与 noised input 在 channel 维度拼接后一并输入给后续的网络。前者由于图像编码器难以捕获底层信息会导致生成视频的 ID 变化,而后者往往需要改变 T2I 模型的结构与参数,训练代价大且兼容性较差。

为了解决上述问题,研究者提出了 I2V-Adapter。具体来说,研究者将输入图像与 noised input 并行输入给网络,在模型的 spatial block 中,所有帧都会额外查询一次首帧信息,即 key,value 特征都来自于不加噪的首帧,输出结果与原始模型的 self attention 相加。此模块中的输出映射矩阵使用零初始化并且只训练输出映射矩阵与 query 映射矩阵。为了进一步加强模型对输入图像语义信息的理解,研究者引入了预训练的 content adapter(本文使用的是 IP-Adapter [8])注入图像的语义特征。

Frame Similarity Prior

为了进一步增强生成结果的稳定性,研究者提出了帧间相似性先验,用于在生成视频的稳定性和运动强度之间取得平衡。其关键假设是,在相对较低的高斯噪声水平上,带噪声的第一帧和带噪声的后续帧足够接近,如下图所示:

于是,研究者假设所有帧结构相似,并在加入一定量的高斯噪声后变得难以区分,因此可以把加噪后的输入图像作为后续帧的先验输入。为了排除高频信息的误导,研究者还使用了高斯模糊算子和随机掩码混合。具体来说,运算由下式给出:

实验结果

定量结果

本文计算了四种定量指标分别是 DoverVQA (美学评分)、CLIPTemp (首帧一致性)、FlowScore (运动幅度) 以及 WarppingError (运动误差) 用于评价生成视频的质量。表1显示 I2V-Adapter 得到了最高的美学评分,在首帧一致性上也超过了所有对比方案。此外,I2V-Adapter 生成的视频有着最大的运动幅度,并且相对较低的运动误差,表明此模型的能够生成更加动态的视频并且同时保持时序运动的准确性。

定性结果

Image Animation(左为输入,右为输出):

w/ Personalized T2Is(左为输入,右为输出):

2060显卡配什么主板和CPU最好

w/ ControlNet(左为输入,右为输出):

儿童插画速写临摹图集电子版

总结

本文提出了 I2V-Adapter,一种即插即用的轻量级模块,用于图像到视频生成任务。该方法保留原始 T2V 模型的 spatial block 与 motion block 结构与参数固定,并行输入不加噪的第一帧与加噪的后续帧,通过注意力机制允许所有帧与无噪声的第一帧交互,从而产生时序连贯且与首帧一致的视频。研究者们通过定量与定性实验证明了该方法在 I2V 任务上的有效性。此外,其解耦设计使得该方案能够直接结合 DreamBooth、Lora 与 ControlNet 等模块,证明了该方案的兼容性,也促进了定制化与可控图像到视频生成的研究。


返回网站首页

本文评论
百度资本CEO「百度资本宣布李晓洋担任百度资本CEO职务」
  讯 8月26日凌晨消息,百度资本今日宣布李晓洋担任百度资本CEO职务,负责百度资本的投融资及全面管理工作。农村电商发展的瓶颈团购服务站  据介绍,李晓洋将带领百度资本不...
日期:09-08
中国联通服装制造军团:新一代纺织服装 全产业链数字化协同基础设施引领者
中国联通服装制造军团:新一代纺织服装 全产业链数字化协同基础设施引领者 通信产业网|2023-07-04 10:05:04作者:崔亮亮来源:通信产业网【通信产业网讯】(记者 崔亮亮)从一丝到一...
日期:07-04
联想发布重磅AI服务器新品  2023中国算力大会现“算力最强军团”
通信世界网消息(CWW)8月18日,在2023中国算力大会上,联想重磅发布两款AI服务器新品——联想问天WA7780 G3 AI大模型训练服务器和联想问天WA5480 G3 AI训推一体服务器。据介绍,这两...
日期:08-19
DXO公布iPhone 14前摄得分:144分 全球排名第四
今晚,DXOMARK公布了iPhone 14的前置摄像头评测数据,其拿下了144分的总成绩,在前摄排行中位列第四。前面是iPhone 14 Pro Max、iPhone 14 Pro、华为Mate50 Pro,这三款手机均为145...
日期:03-14
美媒:别被AI的智能吓到,真正可怕之处是它被高估被滥用_智能ai是什么东西
4月5日消息,过去六个月以来,强大的人工智能(AI)新工具正在以惊人的速度扩散,从能够进行类似真人对话的聊天机器人,到自动运行软件的编码机器人,再到无中生有的图像生成器,所谓的生...
日期:04-05
世界杯不应该扩军「日媒:世界杯扩军是为了让中国参赛 因为中国企业太有钱了」
去年12月中旬,FIFA官方公布了最新国家队排名。在本期榜单中,中国国家队的积分没有任何增减,世界排名下滑1位排名第80,亚洲排名仍居第11。x27升降摄像头虽然亚洲排名较为靠后,但中...
日期:01-02
卢伟冰红米note9「Redmi Note 12马上发 卢伟冰:新品还是很强 大家讨论了很久」
10月9日晚,小米集团中国区总裁、Redmi品牌总经理卢伟冰为Redmi新品预热,称Redmi新品还是很强,大家又讨论了很久”。目前Redmi Note 12系列已经获得3C认证,卢伟冰提到的新品应该...
日期:10-11
GPT-4惊人表现:文字序列混乱不影响阅读理解_文字序列怎么设置
要点:研究发现GPT-4在处理乱序文字时表现出惊人的恢复能力,远超其他大型模型。通过专门测试基准Scrambled Bench,研究人员发现GPT-4在恢复乱序句子和回答相关问题方面的性能在...
日期:12-05
以科技创新推动全球绿色发展 中兴通讯宣布加入“科学碳目标倡议”(SBTi)
2023/5/24 17:02 以科技创新推动全球绿色发展 中兴通讯宣布加入“科学碳目标倡议”(SBTi)   5月24日,在中兴通讯第七届“创兴日”主题论坛上,中兴通讯宣布加入“科学碳目...
日期:05-26
任天堂高管薪酬「任天堂:4 月起将全员基本工资统一上调 10%  定期加薪」
2月8日消息:据共同社消息,日本任天堂透露,将从4月起把全体员工的基本工资统一上调10%。新入职员工工资也上调约10%,另外还有定期加薪。华为mwc新平板任天堂截至2022年9月底共有...
日期:02-08
盒马回应线上订单加收包装费 业务调整所导致_盒马要收配送费了吗
1月2日 消息:据东方财经消息,近日,不少网友发现,在盒马线上平台进行购物时,开始被收取包装费。针对这一变化,盒马官方客服表示,这是由于业务调整所导致的。从2024年1月1日起,每单将...
日期:01-03
联想Legion Go游戏掌机10月上市 配AMD处理器及8.8英寸屏幕「lenovo game center」
9月1日 消息:联想日前宣布,其首款Windows游戏掌上电脑Legion Go将于10月正式发布,此举标志着联想正式加入手持游戏设备的竞争行列。Legion Go搭载8.8英寸QHD+屏幕,采用144Hz高...
日期:09-01
小米手机哪里有卖_小米手机哪里卖正品
小米手机是如今非常受欢迎的智能手机品牌之一,以其性价比极高,品质卓越的特点深受消费者的喜爱。那么,小米手机在哪里有卖呢?下面就为大家整理一下相关信息。首先,在线上购买小米...
日期:05-29
国家新闻出版署发布最新国产网络游戏审批信息_国家新闻出版署 网游监管
凤凰网科技讯 1月17日晚间消息,国家新闻出版署发布2023年1月国产网络游戏审批信息,共88款游戏获批,腾讯的《元梦之星》,网易的《超凡先锋》,米哈游的《崩坏:星穹铁道》在列。什么...
日期:01-17
Shopify发布多个新产品 AI内容生成工具帮商家写产品描述「shopify开发文档」
【亿邦原创】全球电商SaaS服务平台Shopify于本周四开展了半年度产品发布会“Winter'23 Edition”。会上,Shopify公布了近 6 个月以来在Shop App、结账页面、AI内容生成、物流...
日期:02-13
多出一秒影响大!外媒称谷歌、Meta等科技巨头呼吁废除闰秒
见习记者/杨阳   “闰秒”可能会被取消。   据科技新闻网站Cnet报道,7月25日,谷歌、微软、Meta和亚马逊四位科技巨头呼吁废除闰秒,美国国家标准与技术研究院(;NIST;) 与国...
日期:07-31
第二届“光华杯”千兆光网应用创新大赛智慧交通专题赛决赛暨颁奖仪式圆满落幕
第二届“光华杯”千兆光网应用创新大赛智慧交通专题赛决赛暨颁奖仪式圆满落幕 通信产业网|2023-07-26 11:19:05作者:消息来源:通信产业网2023年7月24日,第二届“光华杯”千兆光...
日期:07-26
小米12T系列即将发布,搭载小米首款2亿像素镜头「小米12亿像素」
中关村在线消息:日前小米官方推特已经正式官宣将于10月4日举办海外新品发布会,届时将带来小米12T系列新机,而该机也将搭载小米首款2亿像素镜头。据悉,小米12T标准版采用6.67英寸...
日期:10-06
暑期档票房已达178亿元」-创历史新高 「国家电影局
【】8月18日消息,国家电影局今日发布数据,初步统计,截至2023年8月18日7时,今年暑期档电影票房已达178亿元,超过2019年暑期档总票房177.79亿元,创历史新高。2023年暑期档观影人次已...
日期:09-17
华为Mate 60 Pro宣布开启“90天预约申购”_华为mate60最新官方消息
11月5日 消息:华为官方宣布,自明日开始,华为Mate60Pro将开启90天的预约申购活动,订单将按照随机顺序发货。此举旨在让更多消费者能够体验到这款备受喜爱的产品。宏碁vg270u显示...
日期:11-05