您的位置:首页 > 互联网

单张图片引导,保留主体,风格百变,VCT帮你轻松实现

发布时间:2023-08-22 03:45:39  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

近年来,图像生成技术取得了很多关键性突破。特别是自从 DALLE2、Stable Diffusion 等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。

一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。

最近,来自网易互娱 AI Lab 的研究人员提出了一种基于单张图像引导的图像到图像编辑方案,给定单张参考图像,即可把参考图中的物体或风格迁移到源图像,同时不改变源图像的整体结构。研究论文已被 ICCV2023接收,相关代码已开源。

  • 论文地址:https://arxiv.org/abs/2307.14352

  • 代码地址:https://github.com/CrystalNeuro/visual-concept-translator

让我们先来看一组图,感受一下它的效果。

图片

论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图

主体框架

论文作者提出了一种基于反演-融合(Inversion-Fusion)的图像编辑框架 ——VCT(visual concept translator,视觉概念转换器)。如下图所示,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。内容 - 概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。

图片

论文主体框架

值得一提的是,反演方法是近年来,特别是在生成对抗网络(GAN)领域,广泛应用且在众多图像生成任务上取得突出效果的一项技术【1】。GAN Inversion 技术将一张图片映射到与训练的 GAN 生成器的隐空间中,通过对隐空间的控制来实现编辑的目的。反演方案可以充分利用预训练生成模型的生成能力。本研究实际上是将 GAN Inversion 技术迁移到了以扩散模型为先验的,基于图像引导的图像编辑任务上。

图片

反演技【1】

方法介绍

基于反演的思路,VCT 设计了一个双分支的扩散过程,其包含一个内容重建的分支 B* 和一个用于编辑的主分支 B。它们从同一个从 DDIM 反演(DDIM Inversion

【2】,一种利用扩散模型从图像计算噪声的算法)获得的噪声 xT 出发,分别用于内容重建和内容编辑。论文采用的预训练模型为隐向量扩散模型(Latent Diffusion Models,简称 LDM),扩散过程发生在隐向量空间 z 空间中,双分支过程可表示为:

图片

图片

双分支扩散过程

内容重建分支 B* 学习 T 个内容特征向量

图片

,用于还原原图的结构信息,并通过软注意力控制(soft attention control)的方案,将结构信息传递给编辑主分支 B。软注意力控制方案借鉴了谷歌的 prompt2prompt【3】工作,公式为:

图片

即当扩散模型运行步数在一定区间时,将编辑主分支的注意力特征图替换内容重建分支的特征图,实现对生成图片的结构控制。编辑主分支 B 则融合从原图像学习的内容特征向量

图片

和从参考图像学习的概念特征向量

图片

,生成编辑的图片。

图片

噪声空间 (

图片

空间) 融合

在扩散模型的每一步,特征向量的融合都发生在噪声空间空间,是特征向量输入扩散模型之后预测的噪声的加权。内容重建分支的特征混合发生在内容特征向量

图片

和空文本向量上,与免分类器(Classifier-free)扩散引导【4】的形式一致:

图片

编辑主分支的混合是内容特征向量

图片

和概念特征向量

图片

的混合,为

图片

至此,研究的关键在于如何从单张源图片获取结构信息的特征向量

图片

,和从单张参考图片获取概念信息的特征向量

图片

。文章分别通过两个不同的反演方案实现这一目的。

为了复原源图片,文章参考 NULL-text【5】优化的方案,学习 T 个阶段的特征向量去匹配拟合源图像。但与 NULL-text 优化空文本向量去拟合 DDIM 路径不同的是,本文通过优化源图片特征向量,去直接拟合估计的干净特征向量,拟合公式为:

图片

图片

与学习结构信息不同的是,参考图像中的概念信息需要用单一高度概括的特征向量来表示,扩散模型的 T 个阶段共用一个概念特征向量

图片

。文章优化了现有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其采用一个多概念特征向量来表示参考图像的内容,损失函数包含一项扩散模型的噪声预估项和在隐向量空间的预估重建损失项:

图片

实验结果

文章在主体替换和风格化任务上进行了实验,可以在较好地保持源图片的结构信息的情况下,将内容变成参考图片的主体或风格。

华为mate 50 pro 升级昆仑玻璃

图片

论文实验效果

文章提出的 VCT 框架相较于以往的方案有以下优势:

(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT 不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

(二)视觉准确性:相较于近期文字编辑图像的方案,VCT 利用图片进行参考引导。图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了 VCT 与其它方案的对比结果:

图片

主体替换任务对比效果

图片

风格迁移任务对比效果

(三)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT 直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example 通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet 通过线稿图、深度图等控制生成的结果;而 VCT 则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。

图片

基于图像引导的图像编辑方案的对比效果

网易互娱 AI Lab

网易互娱 AI Lab 成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过 AI 技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。


返回网站首页

本文评论
2022年BrandZ全球品牌百强发布:中国品牌14家上榜_2021年BrandZ中国全球化品牌50强
  6月15日,“2022年BrandZ最具价值全球品牌100强”排行榜正式发布。  在今年的榜单中,苹果在硬件、软件和服务领域上不断拓展业务组合,实现了品牌差异化并重回榜首。谷歌...
日期:10-05
这,就是大模型时代的生产力
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:泽南,授权转载发布。文心与飞桨,向我们展示了领先大模型的生产力。大模型应用卷到了什么地步?几天前,我们看到的还...
日期:08-17
美股周二:三大股指全线收涨,特斯拉跌逾4%,法拉第未来收涨近16%
美国时间周二,美股收盘主要股指全线上涨,科技股领涨。美国11月消费者价格指数(CPI)显示美国通胀大幅降温,投资者关注美联储明天公布的利率决定。道琼斯指数收于34108.64点,上涨103...
日期:12-14
AVG跨平台发力,Site Safety为谷歌Chrome提供安全防护
  近日,AVG发布了一项新的产品Site Safety,它是专门为谷歌的Chrome浏览器所设计的。通过安装Site Safety,Chrome用户可以实时的对网站进行安全检查,甄别存在风险的网站。相比...
日期:07-24
三星:未来 Exynos 芯片仍将使用 AMD RDNA2 架构 GPU_三星芯片exynos叫什么
IT之家 8 月 29 日消息,当三星宣布与 AMD 合作开发基于 AMD RDNA2 架构的移动 GPU 时,人们的期望被拉的很高,结果 Exynos 2200 搭载的 Xclipse 920 GPU 并没有达到预期,三星也在...
日期:09-07
腾讯有多少sea股份「“东南亚小腾讯”Sea第二季度营收29亿美元 同比增长29%」
  讯 北京时间8月16日晚间消息,据报道,新加坡互联网巨头Sea(NYSE: SE)今日发布了截至6月30日的2022年第二季度财报。财报显示,Sea第二季度总营收为29亿美元,与上年同期的23亿美...
日期:09-28
三星galaxy s23系列首月销量277万台_三星手机s22价格和上市时间
三星galaxy s23系列首月销量为277万台,其中galaxy s23 ultra销量为165万台,占据了大部分销量,比去年同期销量增长了102%。京东微店与京东商城Galaxy S23系列的成功表明,三星对旗...
日期:04-26
在每一帧都如幻化般唯美的《侍神令》里,任何细节你都不该错过
  虽然2021刚开年,但想必不少“阴阳师”的粉丝们已经按捺不住了。作为最火爆手游改编的电影,《侍神令》还未上映就赚足了眼球和话题,浓郁的东方色彩将为这个新春带来一丝别...
日期:07-16
苹果手机的静音开关主要针对什么「手机也有性格!“iPhone ePhone”梗引热议 你常年开静音吗?」
快科技8月1日消息,今日,一则iPhone ePhone”的话题突然登上微博热搜第一,引起很多网友讨论,也有一些网友表示看不懂。据了解,有博主发文调侃称常年静音的手机是iPhone,常年外放声...
日期:08-01
“越级”的两年后,科技潮牌realme与年轻人进行了一次深度对话(realme黑科技)
  据《人民日报》报道,2021年5月4日,由realme真我手机联合中国青年报社共同策划的“萤火青年”线上分享会。报道指出,“realme真我手机以‘为全球年轻人打造万物互联的智能...
日期:03-08
阿里健康互联网医院上线70岁以上老人新冠治疗药专属通道_阿里健康互联网医疗事业部
1月14日消息,近日在社交平台上有多位网友分享,在阿里健康互联网医院可以开出新冠口服药了。小米最高价有网友在“淘宝”app搜索“新冠问诊”时发现,阿里健康互联网医院新冠发热...
日期:01-14
特斯拉第四季度营收243亿美元 净利润37亿同比增59%
1月26日消息,当地时间周三美股收盘后,电动汽车制造商特斯拉公布了2022年第四季度未经审计财报。财报显示,特斯拉第四季度总营收为243亿美元,同比增长37%;归属于特斯拉普通股股东...
日期:01-26
无需实体SIM卡 小米海外推eSIM机型_实体智能卡和esim
据消息显示,本周,小米在海外市场推出了首款eSIM机型,小米12T Pro国际版,可以在不少欧洲国家使用。谈起eSIM,一些朋友并不陌生,现在市面上已经有不少支持eSIM的智能手表,也就是空中...
日期:10-15
首张中国5G地图即将诞生,苏宁手机双十一启动全民测速
  随着三大运营商正式公布5G套餐,5G开始逐渐走入消费者的生活当中。但是有了5G手机和5G套餐,5G信号覆盖了吗?关于5G网络我们却有很多的疑惑:其覆盖范围怎样?怎样才能确定在...
日期:01-26
苹果将iPhone 5c列为淘汰产品 停止一些维修等服务_苹果5c停止服务了吗
苹果官方消息称,将在11月正式将iPhone 5c和iPad ini 3列为淘汰产品,也就是停止所有维修和服务,此前也有消息称iPhone 6和iPhone 6 Plus列为过时产品,距离淘汰也不远了。京东社区...
日期:10-11
太危险!女子驾驶保时捷玩具车上机动车道吓坏路人:自称为了好玩
现如今,儿童电动玩具车的造型仿真度越来越接近真车了,各种大G”保时捷”法拉利”造型的玩具车卖的火热。然而,近日有网友反映称,贵州黔南一名女子驾驶一辆迷你保时捷”儿童电动...
日期:03-27
优酷、迪斯尼合作升级 迪士尼电影推广频道落户优酷(优酷和移动合作的活动)
  近日,中国第一视频网站优酷(NYSE:YOKU)与好莱坞知名影视公司华特迪士尼的合作悄然升级,优酷推出迪士尼电影推广频道专题页面(http://movie.youku.com/disney)。专题视频均为华...
日期:07-28
首届大湾区网络安全大会 麒麟软件聚焦教育医疗行业自主安全
4 月 20 日- 21 日,首届大湾区信息网络安全大会成功举办,本届大会由广东省公安厅、广东省卫生健康委员会、广东省教育厅指导,广东省计算机信息网络安全协会主办,麒麟软件等企业...
日期:04-23
特斯联艾渝:“运营即服务”将成为城市智能化的未来
  3月9日上午,由The Economist(《经济学人》)主办的“亚洲科技创变周(Technology for Change Week Asia)”开幕,全球超过700位政策制定者、企业家及跨国公司高管应邀参会。...
日期:07-16
苹果iBooks涉嫌商标侵权 遭纽约出版商起诉
(悦潼)北京时间6月16日消息,据国外媒体报道,苹果今天遭遇了纽约出版商约翰·考尔比(John T. Colby)的投诉,主要原因是苹果的“iBooks”服务涉嫌侵犯了该出版商此前的使用的商标权...
日期:07-30