您的位置:首页 > 互联网

如何制作图片引导「单张图片引导,保留主体,风格百变,VCT帮你轻松实现」

发布时间:2023-08-21 11:56:35  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

近年来,图像生成技术取得了很多关键性突破。特别是自从 DALLE2、Stable Diffusion 等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。

一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。

最近,来自网易互娱 AI Lab 的研究人员提出了一种基于单张图像引导的图像到图像编辑方案,给定单张参考图像,即可把参考图中的物体或风格迁移到源图像,同时不改变源图像的整体结构。研究论文已被 ICCV2023接收,相关代码已开源。

  • 论文地址:https://arxiv.org/abs/2307.14352

  • 代码地址:https://github.com/CrystalNeuro/visual-concept-translator

让我们先来看一组图,感受一下它的效果。

图片引导第三方是什么意思

rtx下一代显卡

论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图

主体框架

论文作者提出了一种基于反演-融合(Inversion-Fusion)的图像编辑框架 ——VCT(visual concept translator,视觉概念转换器)。如下图所示,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。内容 - 概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。

图片引导页

论文主体框架

值得一提的是,反演方法是近年来,特别是在生成对抗网络(GAN)领域,广泛应用且在众多图像生成任务上取得突出效果的一项技术【1】。GAN Inversion 技术将一张图片映射到与训练的 GAN 生成器的隐空间中,通过对隐空间的控制来实现编辑的目的。反演方案可以充分利用预训练生成模型的生成能力。本研究实际上是将 GAN Inversion 技术迁移到了以扩散模型为先验的,基于图像引导的图像编辑任务上。

图片引导第三方是什么意思

反演技【1】

方法介绍

基于反演的思路,VCT 设计了一个双分支的扩散过程,其包含一个内容重建的分支 B* 和一个用于编辑的主分支 B。它们从同一个从 DDIM 反演(DDIM Inversion

【2】,一种利用扩散模型从图像计算噪声的算法)获得的噪声 xT 出发,分别用于内容重建和内容编辑。论文采用的预训练模型为隐向量扩散模型(Latent Diffusion Models,简称 LDM),扩散过程发生在隐向量空间 z 空间中,双分支过程可表示为:

如何制作图片引导

图片引导页

双分支扩散过程

内容重建分支 B* 学习 T 个内容特征向量

图片引导第三方是什么意思

,用于还原原图的结构信息,并通过软注意力控制(soft attention control)的方案,将结构信息传递给编辑主分支 B。软注意力控制方案借鉴了谷歌的 prompt2prompt【3】工作,公式为:

图片引导第三方是什么意思

即当扩散模型运行步数在一定区间时,将编辑主分支的注意力特征图替换内容重建分支的特征图,实现对生成图片的结构控制。编辑主分支 B 则融合从原图像学习的内容特征向量

如何制作图片引导

和从参考图像学习的概念特征向量

图片引导页

,生成编辑的图片。

图片引导页

噪声空间 (

图片引导第三方是什么意思

空间) 融合

在扩散模型的每一步,特征向量的融合都发生在噪声空间空间,是特征向量输入扩散模型之后预测的噪声的加权。内容重建分支的特征混合发生在内容特征向量

如何制作图片引导

和空文本向量上,与免分类器(Classifier-free)扩散引导【4】的形式一致:

如何制作图片引导

编辑主分支的混合是内容特征向量

如何制作图片引导

和概念特征向量

如何制作图片引导

的混合,为

如何制作图片引导

至此,研究的关键在于如何从单张源图片获取结构信息的特征向量

图片引导第三方是什么意思

,和从单张参考图片获取概念信息的特征向量

图片引导页

。文章分别通过两个不同的反演方案实现这一目的。

为了复原源图片,文章参考 NULL-text【5】优化的方案,学习 T 个阶段的特征向量去匹配拟合源图像。但与 NULL-text 优化空文本向量去拟合 DDIM 路径不同的是,本文通过优化源图片特征向量,去直接拟合估计的干净特征向量,拟合公式为:

图片引导页

如何制作图片引导

首批获得人工智能建设资格高校多少所

与学习结构信息不同的是,参考图像中的概念信息需要用单一高度概括的特征向量来表示,扩散模型的 T 个阶段共用一个概念特征向量

如何制作图片引导

。文章优化了现有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其采用一个多概念特征向量来表示参考图像的内容,损失函数包含一项扩散模型的噪声预估项和在隐向量空间的预估重建损失项:

如何制作图片引导

实验结果

文章在主体替换和风格化任务上进行了实验,可以在较好地保持源图片的结构信息的情况下,将内容变成参考图片的主体或风格。

如何制作图片引导

论文实验效果

文章提出的 VCT 框架相较于以往的方案有以下优势:

(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT 不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

(二)视觉准确性:相较于近期文字编辑图像的方案,VCT 利用图片进行参考引导。图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了 VCT 与其它方案的对比结果:

图片引导第三方是什么意思

主体替换任务对比效果

如何制作图片引导

风格迁移任务对比效果

(三)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT 直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example 通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet 通过线稿图、深度图等控制生成的结果;而 VCT 则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。

如何制作图片引导

基于图像引导的图像编辑方案的对比效果

网易互娱 AI Lab

网易互娱 AI Lab 成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过 AI 技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。

小米米家电饭煲


返回网站首页

本文评论
NVIDIA发布2024财年第一季度财务报告_nvidia 2020 财务报告
2023/5/25 14:30 NVIDIA发布2024财年第一季度财务报告   季度收入为71.9亿美元,较上一季度增长19% 数据中心收入创下42.8亿美元的纪录 2024财年第二季度的收入展望达110...
日期:05-26
苹果再失机器学习大牛!负责siri等项目,现今回归非盈利机构
尚恩 发自 凹非寺量子位 | 公众号 QbitAI人们终于等来苹果AI的新消息,然而是一位机器学习大将离职出走,加入非盈利研究机构的消息……htc微软系统手机苹果机器学习领导者之一...
日期:06-22
欣旺达:目前公司在加大推进家庭储能等业务_欣旺达 储能
IT之家 8 月 28 日消息,欣旺达 8 月 26 日在机构电话会议表示,2022 年上半年,公司电动汽车类电池出货量合计 3.95Gwh,实现收入 42.00 亿元,较去年同比增长 631.92%。据介绍,2022...
日期:09-06
美团2024届校招将录用6000人,技术类岗位扩招超50%_美团启动大规模校招
7月31日消息,美团启动2024届校园招聘。此次招聘面向毕业时间在2023年11月至2024年10月的海内外院校应届毕业生,预计招募6000人,覆盖技术,产品,商业分析等职位。美团方面表示,过去...
日期:07-31
中国有几个iphone组装工厂「【手慢无】iPhone要撤出中国组装 赶紧买“中国制造”」
文|闻? 总编|唐迪一直以来有个印象,苹果iPhone手机的背后就有一个清晰的“AssembledinChina”,也就是“中国制造”或叫做“在中国组装”。但最新根据华尔街日报的报道,苹果已经...
日期:12-09
华为阅读与20余内容伙伴达成全面合作,丰富全场景数字阅读体验_华为阅读好不好
4 月 20 日,华为阅读与湛庐文化、腾讯动漫、机械工业出版社、人民邮电出版社、中国人民大学出版社等 20 余家内容出版社及内容平台在京举行合作签约仪式,宣布达成深度合作,合作...
日期:04-21
腾讯音乐将登陆SXSW  展示中国音乐多样之美
  2019 SXSW西南偏南音乐节于3月8日在美国得克萨斯州奥斯汀拉开帷幕。作为世界上规模最大且唯一的“音乐+科技+电影”盛典,每年SXSW都会吸引数十万音乐、科技和艺术爱好者...
日期:01-27
预计双十一前正式上线:88VIP兑换腾讯视频会员页面现身_88vip送腾讯视频会员吗
根据今天《科创板日报》的报道,有认证为阿里巴巴集团的员工在职场社交平台称,88VIP积分将能够免费兑换腾讯视频会员,并表示该功能已经在内部灰度测试,预计双十一前上线。据一位...
日期:10-16
马斯克称乐见FSD硬件及软件授权给对手 已有一家厂商在谈
快科技7月20日消息,今天特斯拉也发布了Q2季度财报,营收为249.27亿美元,与去年同期的169.34亿美元相比增长47%;净利润为26.14亿美元,去年同期的净利润为22.69亿美元。不过特斯拉的...
日期:07-20
DDR5时代真正降临!Intel H610入门主板也要支持 AMD难做了
DDR5取代DDR4成为主流只是个时间问题,而今随着DDR5的价格逐渐平民化,两条16GB 4800MHz只要500元出头就能拿下,时间到了。AMD Zen4锐龙7000系列直接抛弃DDR4、仅支持DDR5的做法...
日期:04-06
张韶涵说周杰伦曾在最低谷挺她 又讲义气三观又正_张韶涵评价周杰伦
近日,张韶涵在接受采访时分享了一则故事,称周杰伦曾在自己最低谷的时候挺她,并且称赞周杰伦人真的很好,能够在音乐界走了这么久是有原因的,因为他不仅有才华还具备高尚的品德!小...
日期:05-23
官宣!《炉石传说》被移出杭州亚运会项目:职业选手难过「炉石传说亚运会参赛资格」
3月16日消息,快科技从杭州2022年第19届亚运会官网获悉,经亚奥理事会第五次协调委员会会议审议决定取消《炉石传说》项目设置,杭州亚运会电子竞技将设7个比赛项目。官方表示,《炉...
日期:03-16
斥资1亿元 吉利成立区块链科技公司_吉利 投资
凤凰网科技讯 7月4日消息,据天眼查App显示,近日,无锡吉利区块链科技有限公司成立,法定代表人为彭涛,注册资本1亿人民币,经营范围包括信息系统集成服务;计算机系统服务;信息咨询服务;...
日期:08-02
趣头条第二季度营收14.41亿元超预期 盘后股价涨逾7%_趣头条2018
9月22日消息,趣头条发布2020年第二季度业绩报告,报告显示,趣头条第二季度营收14.41亿元,同比增长4.0%,超出市场预期;净亏损为2.221亿元,去年同期为亏损5.613亿元,亏损同比大幅收窄...
日期:08-01
董勤峰:个人英雄时代已经远去站长需自强求变
  嘉宾谈2010中国互联网站长年会:个人英雄时代已经远去站长需自强求变   董勤峰 浙江绍兴人,网名“拒绝游泳的鱼”。   1974年生人。96年上网,98年制作个人主页“落伍的...
日期:07-29
高校回应宿舍热水费5275元  外包给公司管理「高校宿舍热水费用标准」
6月19日,在广东肇庆,一名肇庆学院的学生拍摄了一段视频,称自己宿舍共有5人,从大二到大四,三年内热水费总计达到了5275元,这种费用似乎成为了毕业生的沉重负担。知名电商退出双11华...
日期:06-20
哪些中小商家会被淘宝重点扶持呢「哪些中小商家会被淘宝重点扶持?」
声明:本文来自于微信公众号 亿邦动力(ID:iebrun),作者:石航千,授权转载发布。中小商家真的有机会成为 “主角”?日前,淘天集团中小企业发展中心与淘宝教育共同发起了面向中小商家...
日期:07-24
K60 Ultra跑分出炉 天玑9200 16G内存
Redmi K60 Ultra将会在本月内正式发布,有博主公布了该机的跑分信息,其中展示了核心配置。骁龙855一千元以下手机K60 Ultra将搭载天玑9200 处理器,同时还配备了16GB内存,并且疑似...
日期:07-08
李彦宏:网络等新兴媒体与传统媒体互为依撑_互联网作为一种新兴的媒体
  百度总裁兼CEO李彦宏今天在接受媒体采访时表示,网络媒体作为飞速发展的新兴媒体,不会取代电视、报纸等传统媒体,而是与其相辅相承,互为依撑。   自5月24日第七届(2010)北...
日期:07-29
抖音饥饿营销什么意思「联手抖音——饿了么走出行业变革性一步」
  作者:董静怡  来源:21世纪经济报道  在内卷的本地到家市场,为了找到下一片可以开局的“蓝海”,饿了么落下令人意料之外的一子。  8月19日,饿了么和抖音共同宣布达成合...
日期:09-05