您的位置:首页 > 互联网

复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成

发布时间:2023-10-22 09:06:58  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

复旦大学联合华为诺亚方舟实验室的研究者基于图像扩散模型(LDM)提出了一种迭代式生成高质量视频的方案 ——VidRD (Reuse and Diffuse)。该方案旨在对生成视频的质量和序列长度上进行突破,实现了高质量、长序列的可控视频生成。有效减少了生成视频帧间的抖动问题,具有较高的研究和实用价值,为当前火热的AIGC社区贡献了一份力量。

潜在扩散模型(LDM)是一种基于去噪自编码器(Denoising Autoencoder)的生成模型,它可以通过逐步去除噪声来从随机初始化的数据生成高质量的样本。但由于在模型训练和推理过程中都存在着计算和内存的限制,一个单独的 LDM 通常只能生成数量非常有限的视频帧。尽管现有的工作尝试使用单独的预测模型来生成更多的视频帧,但这也会带来额外的训练成本并产生帧级的抖动。

在本文中,受到潜在扩散模型(LDMs)在图像合成方面的显著成功的启发,提出了一个名为“Reuse and Diffuse”的框架,简称VidRD。该框架可以在 LDM 已经生成的少部分视频帧之后,产生更多的视频帧,从而实现迭代式地生成更长、更高质量以及多样化的视频内容。VidRD 加载了预训练的图像 LDM 模型进行高效训练,并使用添加有时序信息的 U-Net 网络进行噪声去除。

  • 论文标题:Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

  • 论文地址:https://arxiv.org/abs/2309.03549

  • 项目主页:https://anonymous0x233.github.io/ReuseAndDiffuse/

本文的主要贡献如下:

  • 为了生成更加平滑的视频,本文基于时序感知的 LDM 模型提出了一种迭代式的 “text-to-video” 生成方法。通过重复使用已经生成视频帧的潜空间特征以及每次都遵循先前的扩散过程,该方法可以迭代式地生成更多的视频帧。

  • 本文设计了一套数据处理方法来生成高质量的 “文本 - 视频” 数据集。针对现有的动作识别数据集,本文利用多模态大语言模型来为其中的视频赋予文本描述。针对图像数据,本文采用随机缩放和平移的方法来产生更多的视频训练样本。

  • 武汉于2020年1月24日开建蔡甸火神山医院对吗

  • 在 UCF-101数据集上,本文验证了 FVD 和 IS 两种评价指标以及可视化结果,定量和定性的结果显示:相较于现有方法,VidRD 模型均取得了更好的效果。

  • 方法介绍

    图1. 本文提出的 VidRD 视频生成框架示意图

    本文认为采用预训练的图像 LDM 作为高质量视频合成的 LDM 训练起点是一种高效而明智的选择。同时,这一观点得到了 [1,2] 等研究工作的进一步支持。在这样的背景下,本文精心设计的模型基于预训练的稳定扩散模型构建,充分借鉴并继承了其优良的特性。这其中包括一个用于精准潜在表示的变分自编码器(VAE)和一个功能强大的去噪网络 U-Net。图1以清晰、直观的方式展示了该模型的整体架构。

    在本文的模型设计中,一个显著的特点是对预训练模型权重的充分利用。具体来说,大部分网络层,包括 VAE 的各组件和 U-Net 的上采样、下采样层,均使用稳定扩散模型的预训练权重进行初始化。这一策略不仅能显著加速模型的训练过程,还能从一开始就确保模型表现出良好的稳定性和可靠性。本文的模型可以在一个初始的包含少量帧的视频片段的条件下,通过重用原始的潜在特征和模仿之前的扩散过程,迭代地生成额外的帧。此外,对于用于在像素空间和潜在空间之间进行转换的自编码器,本文在其解码器中注入了和时序相关的网络层,并对这些层进行了微调,以提高时间一致性。

    为了保证视频帧间的连续性,本文在模型中添加了3D Temp-conv 和 Temp-attn 层。Temp-conv 层紧跟在3D ResNet 后面,该结构可以实现3D 卷积操作,以捕捉空间和时间的关联,进而理解视频序列汇总的动态变化和连续性。Temp-Attn 结构与 Self-attention 相似,用于分析和理解视频序列中的帧间关系,使模型能够精准地同步帧间的运行信息。这些参数在训练时随机初始化,旨在为模型提供时序结构上的理解和编码。此外,为了适配该模型结构,数据的输入也做了相应的适配和调整。

    ipod touch classic

    三星s7和小米5

    图2. 本文提出的高质量 “文本 - 视频” 训练数据集构建方法

    为了训练 VidRD 模型,本文提出了一种构建大规模 “文本 - 视频” 训练数据集的方法,如图2所示,该方法可以处理 “文本 - 图像” 数据和无描述的 “文本 - 视频” 数据。此外,为了实现高质量的视频生成,本文也尝试对训练数据进行了去水印操作。

    尽管当前市场上高质量的视频描述数据集相对稀缺,但存在大量的视频分类数据集。这些数据集拥有丰富的视频内容,每段视频都伴随一个分类标签。如 Moments-In-Time、Kinetics-700和 VideoLT 就是三个代表性的大规模视频分类数据集。Kinetics-700涵盖了700个人类动作类别,包含超过60万的视频片段。Moments-In-Time 则囊括了339个动作类别,总共有超过一百万的视频段落。而 VideoLT 则包含了1004个类别和25万段未经编辑的长视频。

    为了充分利用现有的视频数据,本文尝试对这些视频进行自动化地更加详细的标注。本文采用了 BLIP-2、MiniGPT4等多模态大语言模型,通过针对视频中的关键帧,结合其原始的分类标签,本文设计了许多 Prompts,以通过模型问答的方式产生标注。这种方法不仅增强了视频数据的语音信息,而且可以为现有没有详细描述的视频带来更加全面、细致的视频描述,从而实现了更加丰富的视频标签生成,以帮助 VidRD 模型带来更好的训练效果。

    此外,针对现有的非常丰富的图像数据,本文也设计了详细的方法将图像数据转换为视频格式以进行训练。具体操作为在图像的不同位置、按照不同的速度进行平移和缩放,从而为每张图像赋予独特的动态展现形式,模拟现实生活中移动摄像头来捕捉静止物体的效果。通过这样的方法,可以有效利用现有的图像数据进行视频训练。

    效果展示

    如上述视频所示,为本文VidRD模型生成的视频。描述文本分别为:“Timelapse at the snow land with aurora in the sky.”、“A candle is burning.”、“An epic tornado attacking above a glowing city at night.”、以及“Aerial view of a white sandy beach on the shores of a beautiful sea.”。更多可视化效果可见项目主页。

    小米civi2最新消息

    图3. 生成效果与现有的方法进行可视化对比

    最后,如图3所示,分别为本文生成结果与现有方法 Make-A-Video [3] 和 Imagen Video [4] 的可视化比较,展现了本文模型质量更好的生成效果。


    返回网站首页

    本文评论
    领克车机质量大爆发「领克08首搭 魅族Flyme Auto车机体验:备受好评的小窗口也上车了」
    快科技6月14日消息,预热了数月的魅族车机,终于能在领克08实车上体验了。就在今天,有博主发布了第一手的体验下视频,能购让人抢先感受下魅族Flyme Auto车机的设计和功能。从博主...
    日期:06-14
    小米双11狂赚84亿!干碎苹果夺销量王「小米销量破亿」
    中关村在线消息:11月5日,据相关爆料,从1号起今年的双11正式开始,截止到今天,各大电商平台的第一波双11大促也正式截至并即将开启第二波双11优惠活动。从预售到截至小米品牌包揽了...
    日期:11-13
    蹭流量必看!小红书x大类目热搜词「小红书上热搜关键词」
    声明:本文来自于微信公众号 麋鹿先生Sky(ID:milusir94),作者:麋鹿先生Sky,授权转载发布。网易严选的品牌理念上次发了各大类目的热搜词,反馈不错,很多伙伴建议每个月都来一次,也有...
    日期:10-01
    Win10/11电脑"裸奔"不靠谱!Defender跌下神坛:离线查杀率极低
    尽管Windows 10/11自带的安全软件Defender在此前多次杀软PK中都取得了很不错的表现,可来自反病毒测试机构AV-Comparatives的最新报告显示,Windows Defender严重依赖云服务,其离...
    日期:10-18
    高通启动全新长期产品计划,涵盖 16 款物联网系统级芯片「高通的产品」
    7 月 31 日消息,高通技术公司宣布为其物联网解决方案精选目录推出全新长期产品计划,已于 7 月 27 日启动,最初将涵盖 16 款不同的高通技术公司物联网系统级芯片(SoC)。从高通公众...
    日期:07-31
    威马放弃科创板_贺文哲点评威马即将登陆科创板
      贺文哲通过最新消息表明,威马汽车已完成上市辅导,登陆科创板已经步入倒计时。   据贺文哲在2022年1月31日上海证监局信息披露看到,威马汽车具备辅导验收以及科创板上市...
    日期:07-10
    区块链技术开拓全新市场 天九共享助易保全领跑电子证据市场
      在国家政策扶持下,中国的区块链发展迅猛。数据显示,2020年全球区块链专利累计达到5.14万件,其中中国累计申请了3.01万件,占全球总数的58%。同时,近期发布的《北京城市副中心...
    日期:07-16
    小米14规格首曝:标准版都用上90W快充「小米11可以用40w快充吗」
    按照多方爆料,小米13系列的终极超大杯小米13 Ultra”将会在4月份发布,这将是13系列的最后一款机型。三星承认遭遇网络攻击,美国用户部分信息受损怎么办该机发布后,小米就会开始...
    日期:01-14
    1688推出产地黑马计划 提供流量扶持等五大权益「1688流量来源渠道」
    12月12日 消息:1688对外宣布,近期针对产业带工厂和贸易商,平台推出“顺势增长,行业领跑——1688产地黑马计划”,针对开店助力、运营助力、流量助力三个维度,带来四大权益,助力工厂...
    日期:12-12
    美团两天蒸发4854亿_美团大跌后腾讯辟谣清仓,今年已遭沈南鹏8次减持
    作者:陆涵之;;责编:宁佳彦   8月16日,有消息称,腾讯控股(00700.HK)将出售美团(03690.HK)股票,对此腾讯集团市场与公关部总经理张军进行了辟谣。今日港股,包括美团在内的腾讯系股票均...
    日期:08-20
    内容管理系统厂商注意!“幽灵”勒索病毒入侵超两千个CMS网站
      勒索病毒又来了!这次的病毒跟它的名字一样,颇有些“阴魂不散”的意思。近日,腾讯安全御见威胁情报中心检测发现,针对Windows系统的Shade(幽灵)勒索病毒4.0版本再度来袭,通...
    日期:05-10
    靓号拍出391万天价「15666666666天价靓号流拍 起价1366万元无人入手」
    中关村在线消息:10月10日,一项名为“中国6最多 最顺利号码 联通15666666666”的资产在阿里资产正式开拍,起拍价格为1366万元,保证金为68.8万元,一次最低加价5万元。虽然此靓号引...
    日期:10-13
    3099元起!vivo S17 Pro下周首销:前置5000万广角柔光镜头加持「vivo s1pro前置摄像头参数」
    vivo S17 Pro将于6月8日正式发售,售价为3099元。该手机采用了6.78英寸OLED曲面屏,分辨率为1.5K,刷新率为120Hz,支持2160Hz高频PWM调光技术。多地气温将飙升至20℃以上比亚迪配备...
    日期:06-04
    eda芯片是什么「芯片之母 美国EDA率先进军2nm时代:功耗降低30%」
    快科技5月12日消息,EDA电子设计自动化被称为芯片之母,是芯片设计及制造不可少的关键工具,前不久华为宣布已经攻克了14nm以上工艺的EDA工具,实现了国产化,但在这个领域,美国几家公...
    日期:05-13
    神聊发布2.0版本线控聊天成杀手级创新
      近日,神聊官方网站正式上线,在最新发布的2.0版本中,线控对讲机、求搭讪两大功能吸引了众多智能手机用户的关注,其中线控对讲机更是被神聊CEO王本睿称为用户体验层面的颠覆...
    日期:07-24
    Anker因过热起火风险召回充电宝 相关商品国内已下架_anker充电宝爆炸
    日前,充电品牌Anker安克近日发布公告,少数Anker 535充电宝(Power Core 20K)A1366可能会过热并造成火灾安全风险,官方将进行自愿召回。Anker表示,用户可以通过查看充电宝背后(见下...
    日期:02-13
    用机甲美学呈现“硬核性能”!红魔×变形金刚特邀观影会圆满举办
    用机甲美学呈现“硬核性能”!红魔×变形金刚特邀观影会圆满举办 通信产业网|2023-06-09 20:19:38作者:通文来源:通信产业网2023年6月9日,在北京万达影城成功举办了红魔8Pro+变形...
    日期:06-10
    淘宝直播双十一「今年双12,淘宝直播站上C位」
    声明:本文来自于微信公众号 电商头条(ID:xxxxx),作者:风清,授权转载发布。冷清的双12,热闹的淘宝直播今年的双12,恐怕是最冷清的一届双12。从2013年双12诞生开始,它一直都是除了双11和...
    日期:12-14
    Hitalk:回归教育本质,执牛耳者需得人心
    图片来源:摄图网   寒冬过,暖春至。经过快速发展、技术带动和内容升级,一些挺过了“生存期”的在线成人口语品牌,开始从野蛮生长走向精耕细作。   市场属于真正的野心者。...
    日期:01-28
    赛力斯汽车12月销量达10157辆 同比增长304.02%
    1月3日消息,赛力斯在上交所发布2022年12月份产销快报,12月赛力斯新能源汽车销量达16,643辆,同比增长170.62%;其中,赛力斯汽车12月销量为10,157辆,同比增长304.02%。数据显示,2022年...
    日期:01-03