您的位置:首页 > 互联网

大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景

发布时间:2024-03-04 10:42:00  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。

除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于外观层面的编辑,例如对视频进行风格迁移或者替换视频中的物体,但关于更改视频中对象的动作的尝试还很少。

UniEdit 视频编辑结果(动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换)

本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit,不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对象的动作,例如将以上视频中浣熊弹吉他的动作变成吃苹果或是招手。

此外,除了灵活的自然语言接口和统一的编辑框架,这一模型的另一大优势是无需训练,大大提升了部署的便捷性和用户使用的方便度。

  • 论文标题:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing

  • 项目主页:https://jianhongbai.github.io/UniEdit

  • 代码:https://github.com/JianhongBai/UniEdit

  • 论文:https://arxiv.org/abs/2402.13185

1.UniEdit 在多种视频编辑场景中的表现

a) 对象动作编辑

编辑指令:一只正在趴着的柯基

b) 风格化

编辑指令:上海,码头,油画风格

c) 背景替换

编辑指令:钢铁侠在公园,冬季

d) 对象刚性编辑

编辑指令:一位男士穿着红色西装

e) 对象非刚性编辑

编辑指令:马里奥正在享用晚餐

可以观察到,UniEdit 在不同编辑场景中1)保持了较好的时序一致性,2)较好的保留了原视频的结构及纹理细节,3)生成符合文本描述的编辑视频,展现出了强大的视频编辑能力。

2.UniEdit 独特之处与技术创新点

研究者表示,UniEdit 相较于其他视频编辑方法,其独特之处体现在:

  • 多功能:支持视频动作编辑以及多种视频外观编辑场景。

  • 无需训练:UniEdit 直接利用与训练的文本到视频生成模型,无需额外训练或微调。

  • 灵活性:可兼容不同文本到视频生成模型,可以使用更加强大的视频生成模型提升 UniEdit 编辑质量。

UniEdit 技术上的核心创新点为:

  • 研究者发现,视频生成模型的时间自注意层编码了视频的帧间依赖性。基于这个洞察,研究者引入了一个辅助的动作参考分支,用于生成文本引导的动作特征,然后通过时间自注意层(SA-T)将这些特征注入到主编辑路径中,从而实现将文本引导的动作注入到源视频中。

  • 受到图像编辑技术的启发,研究者发现视频生成模型的空间自注意层(SA-S)编码了视频帧内空间依赖性。因此,研究者引入了一个辅助视频重建分支,并将从视频重建分支的空间自我注意层获得的特征注入到主编辑路径中,以保留源视频的非编辑内容。

  • 为了在编辑外观时保持空间结构,研究者将主编辑路径中的空间注意力图替换为视频重建分支中的空间注意力图。

3.UniEdit 算法框架解读

方法概述。如上图所示,UniEdit 主编辑路径遵循反演 - 生成流程:使用 DDIM 反演后的潜变量作为初始噪声

,然后以目标提示

为文本条件,使用预训练的 UNet 进行去噪处理。进行动作编辑时,为了实现源内容保留和动作控制,研究者提出加入一个辅助视频重建分支和一个辅助动作参考分支,以提供所需的源视频内容和动作特征,这些特征被注入到主编辑路径中,以实现内容保留和动作编辑。

对象动作编辑 — 内容保留。编辑任务的关键挑战之一是继承源视频中的原始内容(例如纹理和背景)。如图像编辑中所验证的,重建过程中去噪模型的注意力特征包含了源视频的内容信息。因此,UniEdit 将视频重建分支中的注意力特征注入到主编辑路径的空间自注意(SA-S)层中,以保留原视频内容。

在去噪步骤 t,主编辑路径中第

个 SA-S 模块的注意力机制操作如下:

电动车电池充满了不拔,对电有影响吗

其中

是主编辑路径中的特征,

是重建分支中对应 SA-S 层的值(value),

为超参数。通过替换空间自注意力层的 value 特征,主编辑路径合成的视频保留了源视频的未编辑特征(例如背景)。与之前的视频编辑工作使用的跨帧注意力机制不同,研究者采用逐帧替换的操作,以更好地处理包含大幅度动作的源视频。

对象动作编辑 — 动作注入。为了在不牺牲内容一致性的情况下获得所需的动作,研究者提出用参考动作指导主编辑路径。具体来说,在去噪过程中涉及一个辅助动作参考分支。与重建分支不同,动作参考分支以包含所需动作描述的目标提示

为条件。为了将动作转移到主编辑路径,研究者的核心洞察是时间层模拟了合成视频剪辑的帧间依赖性(如下图所示)。受上述观察的启发,研究者设计了在主编辑路径的时间自注意层上注入注意力图:

为了更好地将动作与源视频中的内容融合,研究者还在早期去噪步骤中对主编辑路径和动作参考分支实施空间结构控制。

外观编辑 — 空间结构控制。总的来说,外观编辑和动作编辑之间有两个主要区别。首先,外观编辑不需要改变视频的帧间关系。因此,研究者从动作编辑流程中移除了动作参考分支和相应的动作注入机制。其次,外观编辑的主要挑战是保持源视频的结构一致性。为了解决这个问题,研究者在主编辑路径和重建分支之间引入了空间结构控制。

先前的视频外观编辑方法主要利用辅助网络(例如 ControlNet)实现空间结构控制。当辅助控制模型失败时,可能会导致在保持原始视频结构方面的性能下降。作为替代,研究者建议从重建分支中提取源视频的空间结构信息。直观地说,空间自注意层中的注意力图编码了合成视频的结构,如下图所示。因此,研究者用重建分支中的查询和键替换主编辑路径中 SA-S 模块的查询和键:

一致性,同时使模型能够基于文本提示生成所需的纹理和风格。另一方面,内容呈现技术继承了源视频的纹理和风格。因此,研究者使用结构控制而不是内容保留来进行外观编辑。

允许图像输入。为了使 UniEdit 更加灵活,研究者进一步提出一种方法,允许将图像作为输入并合成高质量的视频。与图像动画技术不同,UniEdit 允许用户用文本提示指导动画过程。

具体来说,研究者提出首先通过以下方式实现文本到图像(I2V)的生成:1)通过模拟相机运动转换输入图像,形成伪视频片段;或者2)利用现有的图像动画方法(例如SVD、AnimateDiff)合成一个具有随机动作的视频(这可能与文本提示不一致)。然后,研究者使用以上介绍的 UniEdit 算法对原始视频进行文本引导编辑,以获得最终输出视频。

3.UniEdit 实验结果

UniEdit 不局限于特定的视频扩散模型。研究者将 UniEdit 建立在视频生成模型 LaVie 之上,以验证所提出方法的有效性。对于每个输入视频,研究者遵循 LaVie 的预处理步骤将分辨率调整为320×512。然后,将预处理后的视频输入 UniEdit 进行视频编辑。每个视频在 NVIDIA A100GPU 上编辑仅需1-2分钟。

基线方法。为了评估 UniEdit 的性能,研究者将 UniEdit 的编辑结果与最先进的动作和外观编辑方法进行比较。对于动作编辑,由于缺乏开源的无需训练的方法,研究者将最先进的非刚性图像编辑技术 MasaCtrl 适配到 T2V 模型,以及 one-shot 视频编辑方法 Tune-A-Video (TAV) 作为强基线。对于外观编辑,研究者使用最新的性能强大的方法,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作为基线。结果如下图所示:

定性结果。研究者在图中给出了 UniEdit 的编辑示例(更多示例见项目主页及论文原文)。观察到 UniEdit 可以:1)在不同场景中编辑,包括动作变化、物体替换、风格转换、背景修改等;2)与目标提示一致;3)展示出极佳的时序一致性。

此外,研究者在图5中与最先进的方法进行了比较。对于外观编辑,即将源视频转换为油画风格,UniEdit 在内容保留方面优于基线。例如草原仍保持其原始外观,没有任何额外的石头或小路。对于动作编辑,大多数基线方法未能输出与目标提示对齐的视频,或者未能保留源内容。

定量结果。研究者从两个方面定量验证了 UniEdit 的有效性:时间一致性和与目标提示的一致性。遵循之前的工作,研究者使用 CLIP 模型计算帧间一致性和文本对齐的分数。研究者还通过邀请10位参与者对 UniEdit 和基线方法编辑的视频进行五级评分(1-5)进行了用户研究。如下表所示,UniEdit 的表现大幅超过基线方法。


返回网站首页

本文评论
WDCC 2022世界设计之都大会开启元宇宙新世代
要加快推进世界知名“设计之都”建设,打造国际国内原创设计的首 发地,优 秀设计的产业转化高地,构建多元共赢的创意设计生态圈。——《上海市国民经济和社会发展第十四个五年规...
日期:09-15
firefox扩展开发_Mozilla 终止火狐浏览器扩展推广计划:以后不再区分扩展是否可信
  1月26日消息 1 月 21 日,Mozilla 官方发布《推广附件试点总结》,宣布 Mozilla 将于 2021 年 1 月 21 日结束 Firefox 火狐浏览器扩展推广计划的试点。   以后,火狐浏览...
日期:07-10
小米各项业务营收占比_小米第二季度互联网服务收入69.7亿元,其中广告业务收入45亿元
讯 8月19日下午消息,小米集团(HK: 1810)今日发布截至2022年6月30日的第二季度财报。财报显示,小米第二季度营收701.7亿元,同比下滑20.1%,预估698.6亿元;净利润13.9亿元,预估15亿元;调...
日期:08-20
苹果显示电量百分比ios14「苹果发布 iOS 16.1 首个公开测试版:全面支持电量百分比显示」
IT之家 9 月 16 日消息,苹果今天向公众测试者发布了即将到来的 iOS 16.1 更新的首个测试版,相较开发者测试版仅晚了一天,不过更新内容应该是完全相同的,例如对电池百分比图标的...
日期:09-22
茶是饮料之王「新茶饮“顶流”不再,谁能成为消费者手里的那一杯?」
声明:本文来自于微信公众号 锌刻度(ID:znkedu),作者:星 晚,授权转载发布。本周,位于广州城投大厦的喜小茶门店即将关闭,这是仅剩的最后一家喜小茶,也是广州的第一家。这个曾被视为...
日期:11-08
机器人工程技术人员缺口达500万人 门槛高难度大供给不易「工业机器人的人才需求」
  本报记者;贾;丽  近年来,机器人产业蓬勃发展,市场规模持续快速增长。据《中国机器人产业发展报告(2022年)》显示,预计2022年全球机器人市场规模将达到513亿美元,中国机器人...
日期:09-27
中国联通回应:巨亏并非经营不善_中国联通净利润暴增
  同为通信企业,中国移动上年度利润达到972.7亿元,在各大央企中排名第二,中国联通亏损多达41.4亿元,成为百家央企亏损首位,让人难以相信这是苹果在中国唯一的合作运营商所提交...
日期:07-24
QQ浏览器多项疫情防控内容及服务,为公众出行护航_QQ浏览器实时疫情
  春节临近,“疫情防控”成为今年春运工作的重中之重。为帮助用户更及时更全面了解疫情状况,QQ浏览器推出多项疫情内容和服务。   主要包含战疫频道、各地隔离政策速查、...
日期:07-16
一人限购一台!华为Mate 60 Pro销售火爆,旗舰店预约至少等一周_华为mate60还会有吗
2023年9月3日,上海,华为Mate 60 Pro全渠道开启全款售卖,消费者在现场排队体验新机。 视觉中国 图随着华为Mate 60系列的开售,华为门店再现排队盛况。9月4日下午,华为Mate 60系列...
日期:09-05
Reno10发布会直播地址 Reno10系列发布会在哪看_opporeno2发布会直播
5月24日下午14:30,OPPO将举行新品发布会,发布会全新的OPPO Reno10系列手机。此前,OPPO官方已经公布了该新机的配置信息。这里,我们为大家汇总了OPPO Reno10系列的相关配置信息,帮...
日期:05-24
中国电科网通院自主通信设备时频“心脏”全新升级_中国电科网络通信子集团
通信世界网消息(CWW)近日,电科网通远东通信研制最新一代超低相噪恒温晶体振荡器,可增强通信接收机的抗干扰能力、降低通信误码率、提高通信质量。如同人体离不开心脏提供生存必...
日期:12-14
百度下架了吗「百度:7月初起累计下架涉及未成年人相关有害信息7.4万条」
9月5日 消息:百度发布关于开展“互联护苗2023网络专项举报工作”专项治理的公告称,从7月初起,平台开展了“互联护苗2023网络专项举报工作”。此次专项工作重点整治7方面网上涉...
日期:09-05
比RTX 4080小一半!RTX 4000 SFF半高卡开卖:万元价格、功耗仅70瓦
快科技4月20日讯,NVIDIA 3月份发布的RTX 4000 SFF工作站专业卡终于抵达零售市场。绿色建材发展规划不过,建议零售价1250美元的它,上来就抬高了身价,海外经销商纷纷给出1444美元...
日期:04-20
2022,投资人出差地图
声明:本文来自于微信公众号 投资界(ID:pedaily2012),作者:于丽丽 郭世彩,授权转载发布。2022年,投资人还好吗?这一年,全国各地引导基金大爆发,从南到北,从沿海到内陆,从省级到区县,一只只...
日期:01-24
新顶级域名开放 “.aigo”域名有望第一批顺利通过申请
  在新顶级域名提案正式获得批准之际,我国著名数码品牌“爱国者”的总裁冯军通过微博宣布,向ICANN(互联网名称与数字地址分配机构)申请品牌新顶级域名“.aigo”,这也是中国首...
日期:07-30
比特币价格再次跌破2万美元 和去年3月相比下跌58.9%_比特币价格一度大跌超30%
9月19日 消息:比特币价格又跌了!美国时间周日,比特币价格下跌至19804美元,与上一个交易日结束时相比价格下跌310美元。13 pro换14pro需要加多少钱根据报价平台CoinDesk的数据,...
日期:09-22
购荣耀FlyPods 3晒单赢取荣耀30系列手机!现在入手享三期分期免息(荣耀flypods3为什么降价)
  荣耀旗下的真无线降噪耳机荣耀FlyPods 3自发售以来,凭借双重主动降噪、三麦克通话降噪、纯正音色等特点,得到用户的追捧。近日,@荣耀智慧生活 官微启动了“晒单赢手机...
日期:01-25
温度直降100多度 HBM内存也要用上低温焊了:产能大增「内存焊接温度」
快科技8月19日消息,随着AI市场的爆发,不仅CPU、GPU算力被带动了,HBM内存也成为香饽饽,还有2.5D、3D封装技术,但是它们的产能之前很受限制,除了成本高,焊接工艺复杂也是问题。芯片焊...
日期:08-19
会谈地点可能暗示合作方向 李在镕已在美国同马斯克会面_李在镕访谈
IT之家 据韩联社消息,三星电子会长李在镕于5月10日与特斯拉CEO埃隆・马斯克进行了会面,讨论了未来尖端产业领域的合作方案。韩联社认为,这暗示着这家芯片制造商与特斯拉有可能...
日期:09-29
美国在线教育龙头Chegg拥抱AI后,裁调了4%的员工「美国在线教育市场」
6月13日 消息:据彭博社报道,随着学生越来越多地转向ChatGPT等人工智能聊天机器人寻求帮助,美国在线教育龙头、提供在线家庭作业帮助服务的Chegg公司将削减约4%的员工。该公司...
日期:06-13