您的位置:首页 > 互联网

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

发布时间:2023-05-26 15:20:13  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:LRS,授权转载发布。

这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。

只要一张参考图片,任何人都可以替换成视频的主角。

‍随着扩散模型的发展,基于输入文本生成高质量的图片和视频已经成为现实,但是仅使用文本生成视觉内容的可控性有限。

为了克服这个问题,研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性,但仍然需要依赖文本来描述目标生成内容。

在实际应用中,我们面临着一个新的需求:如果用户想要生成的内容无法用语言描述呢?

例如,用户想生成某一个普通人的视频,但仅在输入文本中使用普通人的名字是无意义的,因为语言模型无法识别不在训练语料中的个体姓名。

针对这个问题,一种可行的解决方案是基于给定个体训练个性化的模型。

例如,DreamBooth和Dreamix通过多张图片理解个体概念,从而进行个性化的内容生成,不过这两种方法需要对每个个体分别进行学习,并且需要该个体的多张训练图片和精细化调参。

最近,来自新加坡国立大学(NUS)和华为诺亚实验室的研究者们在个性化视频编辑上取得了新的进展,通过多个集成模型的协同工作,无需对个性化概念进行额外的训练和微调,仅仅需要一张目标参考图片,就能实现对已有视频的主角替换、背景替换以及特定主角的文生视频。

项目主页:https://make-a-protagonist.github.io/

论文地址:https://arxiv.org/pdf/2305.08850.pdf

代码地址:https://github.com/Make-A-Protagonist/Make-A-Protagonist

这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。

介绍

Make-A-Protagonist将视频分为主角和背景,对二者使用视觉或语言参考信息,从而实现主角编辑、背景编辑和特定主角的文生视频。

主角编辑功能允许用户使用相同的场景描述,但通过参考图像来替换视频中的主角。这意味着用户可以使用自己选择的图像来替换视频中的主要角色。

背景编辑功能允许用户使用与原始视频相同的主角描述(例「Suzuki Jimny」),并使用原始视频帧作为视觉信息,但可以更改对场景的文字描述(例如「in the rain」)。这样,用户可以保持相同的主角,但改变场景的描述,营造出不同的视觉效果。

2021京东双十一活动规则

特定主角的文生视频功能将主角编辑和背景编辑结合起来。用户可以使用参考图像作为主角,并对场景进行描述,从而创造出全新的视频内容。此外,对于多主角视频,Make-A-Protagonist还可以对单个或多个角色进行更改。

与DreamBooth和Dreamix不同,Make-A-Protagonist仅需要单张参考图像,不需要对每个概念进行微调,因此在应用场景上更加灵活多样。Make-A-Protagonist为用户提供了一种简便而高效的方式来实现个性化的视频编辑和生成。

玫瑰情人网举报的原因

2015平板电脑性价比

方法

Make-A-Protagonist使用多个强大的专家模型,对原视频、视觉和语言信息进行解析,并结合基于视觉语言的视频生成模型和基于掩码的去噪采样算法,实现通用视频编辑。该模型主要由三个关键部分组成:原视频解析,视觉和语言信息解析,以及视频生成。

具体来说,Make-A-Protagonist推理过程包括以下三步:首先使用BLIP-2, GroundingDINO、Segment Anything 和 XMem等模型对原视频进行解析,获得视频的主角掩码,并解析原视频的控制信号。

接下来,使用CLIP和DALL-E2Prior对视觉和语言信息进行解析。最后,使用基于视觉语言的视频生成模型和基于掩码的去噪采样算法,利用解析信息生成新的内容。

Make-A-Protagonist的创新之处在于引入了基于视觉语言的视频生成模型和基于掩码的去噪采样算法,通过整合多个专家模型并解析、融合多种信息,实现了视频编辑的突破。

这些模型的运用使得该系统更加精准地理解原视频、视觉和语言信息,并能够生成高质量的视频内容。

Make-A-Protagonist为用户提供了一款强大而灵活的工具,让他们能够轻松进行通用的视频编辑,创作出独特而令人惊艳的视觉作品。

1.原视频解析

原视频解析的目标是获取原视频的语言描述(caption)、主角文字描述、主角分割结果以及ControlNet所需的控制信号。

针对caption和主角文字描述,Make-A-Protagonist采用了BLIP-2模型。

通过对BLIP-2的图像网络进行修改,实现了对视频的解析,并使用captioning模式生成视频的描述,这些描述在训练和视频编辑中用于视频生成网络。

对于主角文字描述,Make-A-Protagonist使用VQA模式,提出问题:「视频的主角是什么?」并使用答案进一步解析原视频中的主角信息。

在原视频中的主角分割方面,Make-A-Protagonist利用上述得到的主角文字描述,在第一帧中使用GroundingDINO模型来定位相应的检测内容,并使用Segment Anything模型获得第一帧的分割掩码。然后,借助跟踪网络(XMem),Make-A-Protagonist得到整个视频序列的分割结果。

除此之外,Make-A-Protagonist利用ControlNet来保留原视频的细节和动作,因此需要提取原视频的控制信号。文中使用了深度信号和姿态信号。

通过这些创新的解析方法和技术,Make-A-Protagonist能够准确地解析原视频的语言描述、主角信息和分割结果,并提取控制信号,为后续的视频生成和编辑打下了坚实的基础。

2.视觉和语言信息解析

联发科天玑为何突然崛起

对于视觉信号,Make-A-Protagonist在本文中采用CLIP image embedding作为生成条件,为了去除参考图像背景的影响,类似于原视频解析,Make-A-Protagonist使用GroundingDINO和Segment Anything得到参考图像主角的分割掩码,使用掩码将分割后的图像输入CLIP视觉模型,以获取参考视觉信息。

语言信息主要用于控制背景,本文将语言信息用于两方面,一方面使用CLIP语言模型提取特征,作为注意力网络的key和value。

另一方面,使用DALL-E2Prior网络,将语言特征转化为视觉特征,从而增强表征能力。

3.视频生成

3.1视频生成网络训练

为了充分利用视觉信息,Make-A-Protagonist使用Stable UnCLIP作为预训练模型,并对原视频进行微调,从而实现利用视觉信息进行视频生成。

在每个训练迭代中,Make-A-Protagonist提取视频中随机一帧的CLIP image embedding,将其作为视觉信息输入到Residual block中。

3.2基于掩码的去噪采样

为融合视觉信息和语言信息,本文提出基于掩码的去噪采样,在特征空间和隐空间对两种信息进行融合。

具体来说,在特征域,Make-A-Protagonist使用原视频的主角掩码,将主角对应部分使用视觉信息,背景对应部分使用DALL-E2Prior转化后的语言信息:

在隐空间中,Make-A-Protagonist将仅使用视觉信息的推理结果和经过特征融合的推理结果按照原视频的主角掩码进行融合:

通过特征空间和隐空间的信息融合,生成的结果更加真实,并且与视觉语言表述更加一致。

总结

Make-A-Protagonist引领了一种全新的视频编辑框架,充分利用了视觉和语言信息。

该框架为实现对视觉和语言的独立编辑提供了解决方案,通过多个专家网络对原视频、视觉和语言信息进行解析,并采用视频生成网络和基于掩码的采样策略将这些信息融合在一起。

Make-A-Protagonist展现了出色的视频编辑能力,可广泛应用于主角编辑、背景编辑和特定主角的文生视频任务。

Make-A-Protagonist的出现为视频编辑领域带来了新的可能性。它为用户创造了一个灵活且创新的工具,让他们能够以前所未有的方式编辑和塑造视频内容。

无论是专业编辑人员还是创意爱好者,都能够通过Make-A-Protagonist打造出独特而精彩的视觉作品。

参考资料:

https://make-a-protagonist.github.io/


返回网站首页

本文评论
ipv6相关股票 数码科技_IPv6概念股受市场追捧 紫光股份忙澄清
  近日IPv6概念股受市场追捧,紫光股份(000938)持续两个交易日涨停。该公司今日披露股票交易异常波动公告显示,其参股的比威网络技术有限公司与清华大学联合研发出IPv6核心...
日期:07-26
餐道亮相中国连锁餐饮峰会,以数字引领行业风口(餐饮界的创新)
     5月11日,由中国连锁经营协会(CCFA)主办的“CCFA新消费论坛—2021中国连锁餐饮峰会”主会场正式拉开帷幕。本次大会围绕“积极拥抱变化 坚持长期主义”主题,深入探讨...
日期:01-26
miui12开发版回到稳定版「号称重回巅峰!MIUI 14今天下午揭晓:要做最精简轻巧系统」
从昨天小米13官宣定档到现在,官方已经揭晓了不少新机配置。不过,小米13系列整体配置此前在爆料中已经基本明了,核心自然也是第二代骁龙8无悬念。大家更在意的还是实际表现,以及...
日期:11-30
剧透全球互联网通信云大会:融云核心技术首曝光_融云全球通信云是什么
  致力于为全球开发者提供 IM 即时通讯和实时音视频通信云服务的融云,将于 2019 年 11月 30 日在上海举办主题为“融视界·云通信”的全球互联网通信云大会(以下简称 WICC...
日期:05-23
PICO总裁周宏伟:研发人员约70多名 还会加大投入「pico ceo周宏伟」
凤凰网科技讯 9月27日小时,PICO 4发布会后,PICO总裁周宏伟在媒体采访时表示,目前团队人数在1000人左右,研发人员约70-80人,公司还会加大投入。今日,PICO 4国行版发布,8+128G版本249...
日期:09-29
apple macbook pro 14寸「苹果新款MacBook Pro 14/16英寸将在今年Q4量产」
IT之家 8 月 23 日消息,据分析师郭明錤称,苹果下一代 MacBook Pro 14 英寸和 16 英寸机型将于 2022 年第四季度进入量产阶段。郭明錤在推文中表示,鉴于台积电的指导表明,3nm 芯...
日期:09-13
狂掉粉40W,又一抖音千万粉丝网红翻车_抖音4000w粉丝的网红
声明:本文来自于微信公众号 微果酱(ID:wjam123456),作者:黄小曼,授权转载发布。你离网红的距离,或许只差一个短视频。短视频浪潮依旧风起云涌,流量席卷一切,每个人的成名仿佛被按下...
日期:11-29
华夏名网可免费授权齐博cms四大系统
  为祝贺华夏名网(www.sudu.cn)与齐博CMS(www.qibosoft.com)(原PHP168 V系列)结成战略合作伙伴1周年,凡是购买华夏名网齐博cms专用虚拟主机2型及以上主机均可免费获得齐博官方...
日期:07-25
超越任天堂N64!索尼PS5全球销量达3354万台
近日,VGChartz公布了索尼PS5主机最新的销量数据。目前,这款主机在全球范围内已经售出了3354万台,甚至超过了任天堂的经典游戏主机Nintendo 64,它在整个生命周期内卖出了3293万台...
日期:04-04
新版Win11巨变:无缝集成GPT-4!系统级生成式AI工具Copilot来了
快科技5月23日讯,继为Office套件带来AI助手Microsoft 365 Copilot后,微软在今晚的Build 2023大会上宣布,Windows Copilot将全面降临Windows 11操作系统。我国成功发射云海号Win...
日期:05-24
荣耀平板v7pro分辨率「荣耀平板V8 Pro屏幕曝光:2.5K+144Hz高刷 26日发布」
荣耀将于12月26日19:30举行新品发布会,发布会中不仅会带来荣耀80 GT手机,还会带来一款性能平板——荣耀平板V8 Pro。官方今日宣布,荣耀平板V8 Pro是全球首款搭载144Hz自适应高...
日期:12-21
苹果市值一夜蒸发7160亿元:除了研发不招人「苹果市值一夜蒸发2800亿」
中关村在线消息:美股连续第四个交易日下跌,大型科技股再度领跌,谷歌跌4.07%,亚马逊跌3.06%,奈飞跌1.44%,微软跌2.66%。苹果跌4.24%,市值一夜蒸发977亿美元(约合人民币7160亿元)。real...
日期:11-06
潜望长焦回归!OPPO Reno 10系列官宣:新增“灿烂金”配色「opporeno10价格多少」
快科技5月17日消息,OPPO将于5月24日14:30举行新品发布会,届时将会发布十代里程碑之作OPPO Reno10系列,并带来全新的灿烂金”配色。从官方预热视频可知,OPPO Reno10系列的设计与...
日期:05-17
黑莓手机可以用谷歌吗_谷歌放弃支持黑莓版Gmail应用
  北京时间11月9日晚间消息,谷歌将从本月晚些时候开始放弃支持针对黑莓手机的原生Gmail应用。   谷歌在一份“生命结束声明”中表示,谷歌将于11月22日正式停止支持黑莓版...
日期:07-24
《海南首家互联网医院牌照“诞生”,快速问医生助力健康海南建设》
  自从国务院发文明确支持“互联网+医疗健康”以来,互联网医院迎来蓬勃发展。今日,快速问医生宣布,和博鳌超级医院共建的博鳌超级医院健康云互联网医院正式通过,并且获得...
日期:12-24
微信支付电子小票上线_电子版小票
  微信支付电子小票正式上线。通过该功能,零售商超可以实现电子小票自动下发,用户打开微信即可查看、储存小票以及获取商家服务。   用户打开微信即可通过支付凭证和红...
日期:07-17
原美团创始人称将打造中国OpenAI 出资5千万美元_美团创始人是谁呀
2月13日 消息:2月13日,美团网联合创始人王慧文在社交平台上宣布进入人工智能领域,创办了北京光年之外科技有限公司,出资五千万美元,估值达二亿美元,自有资金占25%,其余75%的股份用...
日期:02-15
观察过去4年私域私域业态 分享2.0背后的增长和跃升_私域会员运营
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:见实,授权转载发布。五菱凯捷1.5t发动机私域2.0建设的重点有3个“私域+”:线上+线下,公域+私域,品牌私域+渠道私域,这是腾讯...
日期:10-04
腾讯回应出售美团股权:不实!美团市值却跌掉千亿_腾讯持股美团多少股份
《科创板日报》8月16日讯(记者 张洋洋) 今日午后,美团港股直线下挫,跌幅扩大至10%。此前有市场消息称,腾讯计划出售美团的全部或大部分股权,对此,腾讯方面回应《科创板日报》记者称...
日期:08-18
截图中嵌入盲水印?知乎回应:实验功能测试,已下线「截图有盲水印什么原理」
  近日,知乎被曝在App和网页端的用户截图中嵌入盲水印,盲水印用肉眼难以分辨,需要在特定的图片显示效果下才能看到。经检测工具测试后,网友发现盲水印疑似包括用户UID等信息。...
日期:09-10