您的位置:首页 > 互联网

谷歌图标用ai怎么做「看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令」

发布时间:2024-01-06 21:34:32  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比 PS 大神抓着你的手助你 P 图。

在使用大型语言模型(LLM)时,我们都已经见证过了指令微调的重要性。如果应用得当,通过指令微调,我们能让 LLM 帮助我们完成各种不同的任务,让其变成诗人、程序员、剧作家、科研助理甚至投资经理。

现在,大模型已经进入了多模态时代,指令微调是否依然有效呢?比如我们能否通过多模态指令微调控制图像生成?不同于语言生成,图像生成一开始就涉及到多模态。我们可否有效地让模型掌握多模态的复杂性?

为了解决这一难题,Google DeepMind 和 Google Research 提出可将多模态指令方法用于图像生成。该方法可将不同模态的信息交织在一起来表达图像生成的条件(图1左图给出了几个示例)。

具体来说,多模态指令可增强语言指令,比如用户可让生成模型按照指定参照图像的风格对所生成的图像进行渲染。如此一来,就能以对人类而言很直观的交互界面有效地为图像生成任务设定多模态条件。

基于这一思路,该团队打造了一个多模态指令图像生成模型:Instruct-Imagen。

论文地址:https://arxiv.org/abs/2401.01952

ime-mode 谷歌如何实现

该模型使用了一种两阶段训练方法:首先增强模型处理多模态指令的能力,然后忠实地遵循多模态的用户意图。

在第一阶段,该团队采用了一个预训练的文本到图像模型,其任务是处理额外的多模态输入;之后再对其进行微调,使其能准确地响应多模态指令。具体而言,他们采用的预训练模型是一个扩散模型(diffusion model),并使用相似的 (图像,文本) 上下文对其进行了增强,这些上下文取自一个网络规模级的 (图像,文本) 语料库。

在第二阶段,该团队在多种图像生成任务上对模型进行了微调,其中每个任务都搭配了对应的多模态指令 —— 这些指令中囊括了各自任务的关键要素。经过以上步骤,所得到的模型 Instruct-Imagen 可以非常娴熟地处理多种模态的融合输入(比如草图加用文本指示描述的视觉样式),从而可以生成准确符合上下文且足够亮眼的图像。

如图1所示,Instruct-Imagen 表现卓越,能够理解复杂的多模态指令并生成忠实遵照人类意图的图像,甚至能很好地处理之前从未见过的指令组合。

根据人类的反馈表明,在许多实例中,Instruct-Imagen 不仅能媲美针对特定任务的模型处理对应任务的表现,甚至还能超越它们。不仅如此,Instruct-Imagen 还表现出了强大的泛化能力,可以用于未曾见过和更复杂的图像生成任务。

用于生成的多模态指令

该团队使用的预训练模型是扩散模型并且用户可以为其设定输入条件,具体请参看原论文。

对于多模态指令,为了保证通用性和泛化能力,该团队提出了一种统一的多模态指令格式,其中语言的作用是明确陈述任务的目标,多模态条件则是作为参考信息。

这种新提出指令格式包含两个关键组件:(1) 有效负载文本指令,其作用是详细描述任务目标并给出参考信息标识,比如 [ref#?]。(2) 多模态的上下文,带有配对的 (标识 + 文本,图像)。然后,该模型使用一个共享的指令理解模型来处理文本指令和多模态上下文 —— 这里并不会限定上下文的具体模态。

图2通过三个示例展示了这一格式可以如何表示之前的各种生成任务,这说明这种格式可以兼容之前的图像生成任务。更重要的是,语言很灵活,因此无需针对模态和任务进行任何专门设计,就能将多模态指令扩展用于新任务。

Instruct-Imagen

Instruct-Imagen 的基础是多模态指令。基于此,该团队基于一种预训练的文本到图像扩散模型设计了模型架构,即级联扩散模型(cascaded diffusion model),使其可以完全采用输入的多模态指令条件。

具体来说,他们使用了 Imagen 的一个变体版本,参阅论文《Photorealistic text-to-image diffusion models with deep language understanding》,并基于他们的内部数据源进行了预训练。其完整模型包含两个子组件:(1) 文本到图像组件,其任务是仅使用文本 prompt 生成128×128分辨率的图像;(2) 文本条件式超分辨率模型,其可将128分辨的图像提升至1024分辨率。

至于对多模态指令的编码,可见图3(右),其中展示了 Instruct-Imagen 编码多模态指令的数据流。

以两阶段方法训练 Instruct-Imagen

小米高管吐槽iPhone12

Instruct-Imagen 的训练流程分为两个阶段。

第一阶段是检索增强式文本到图像训练,即使用经过增强的检索到的近邻 (图像,文本) 对继续训练文本到图像的生成。

第二阶段则是对第一阶段的输出模型进行微调,这会用到混合的多样化的图像生成任务,其中每个任务都搭配了对应的多模态指令。具体来说,该团队使用了5个任务类别的11个图像生成数据集,见表1。

在这两个训练阶段中,模型都是端到端优化的。

实验

该团队对新提出的方法和模型进行了实验评估,并深度分析了 Instruct-Imagen 的设计和失败模式。

实验设置

该团队在两种设置下对模型进行了评估,即领域内任务评估和零样本任务评估,其中后一种设置比前一种设置更具挑战性。

主要结果

图4比较了 Instruct-Imagen 和基准方法及之前的方法,结果表明其在领域内评估和零样本评估上足以媲美之前的方法。

这表明多模态指令训练可以增强模型在训练数据有限的任务(比如风格化生成)上的性能,同时还能维持在数据丰富的任务(比如生成像照片的图像)上的效果。如果没有多模态指令训练,多任务基准往往会得到较差的图像质量和文本对齐效果。

举个例子,在图5的上下文风格化(in-context stylization)示例中,多任务基准难以分辨风格与物体,于是在生成结果中复现了物体。出于类似的原因,其在风格迁移任务上也表现很差。这些观察凸显了指令微调的价值。

不同于依赖针对特定任务的当前方法或训练,Instruct-Imagen 通过利用组合不同任务的目标的指令并在上下文中执行推理,可以高效地管理组合式任务(无需微调,每个示例需要18.2秒)。

如图6所示,Instruct-Imagen 在指令跟随和输出质量方面总是优于其它模型。

不仅如此,在多模态上下文中存在多个参考的情况下,多任务基准模型无法将文本指令与参考对应起来,导致一些多模态条件被忽略。这些结果进一步展现了新提出的模型的有效性。

模型分析和消融研究

该团队对模型的限制和失败模式进行了分析。

比如该团队发现,微调后的 Instruct-Imagen 可以编辑图像。如表2所示,通过比较之前的 SDXL-inpainting、在 MagicBrush 数据集上微调过的 Imagen 以及微调后的 Instruct-Imagen,可以发现微调后的 Instruct-Imagen 大幅优于专门为基于掩码的图像编辑设计的模型。

Axie Infinity游戏违法吗

但是,微调后的 Instruct-Imagen 却会在编辑后的图像中生成伪影,尤其是超分辨率步骤之后的高分辨率输出,如图7所示。研究者表示,这是由于该模型之前没有学习过直接从上下文准确地复制像素。

该团队还发现,检索增强式训练有助于提升泛化能力,结果如表3所示。

谷歌3d模型

对于 Instruct-Imagen 的失败模式,研究者发现,当多模态指令更复杂时(至少3个多模态条件),Instruct-Imagen 难以生成遵从指令的结果。图8给出了两个示例。

携程网副总裁

下面再展示一些在训练中未曾见过的复杂任务上的结果。

该团队也进行了消融研究证明其设计组件的重要性。

不过,出于安全性考虑,谷歌目前还没有发布该研究的代码和 API。

谷歌ai模型

请参阅原始论文以获取更多详细信息。


返回网站首页

本文评论
vivo有望首发!天玑9000系迭代芯片即将登场:跑分高于骁龙8 Gen2「麒麟820和天玑900跑分」
今日消息,博主数码闲聊站爆料,联发科天玑9000系迭代芯片已被各大品牌开案测试,进度最快的是蓝厂,目前工程机跑分高于骁龙8 Gen2。小米Q2出货量由此看来,vivo有望首发联发科天玑90...
日期:10-02
手冢治虫画集「GPT-4参与手冢治虫漫画续作」
6月15日 消息:据报道,6月12日,日本著名的漫画家手塚治虫的经典漫画作品《怪医黑杰克》将会在今年秋季推出全新作品,《周刊少年冠军》杂志将会首发。这次新作的制作将会接受到GP...
日期:06-15
亚都除湿机好用吗_为什么我劝你一定要拥有亚都除湿机?
  梅雨季节的到来,对于早已习惯了潮湿的南方人而言,并不感到陌生,甚至大家都早早地做好了应对准备,开启除湿模式,与亚都除湿机一起共同度过这个梅雨季节,与亚都除湿机一起拥抱...
日期:07-14
惠普推出新款无线耳机:充电盒自带触控屏 控制音乐播放_惠普的无线耳机
快科技6月9日消息,惠普最近推出了新款无线耳机Poly Voyager Free 60,在充电盒特别配上了触控屏,十分吸睛。据悉,新款耳机采用入耳式设计,带有耳机柄和硅胶耳塞,自带传感器,可在放入...
日期:06-09
华为手机冲刺高端稳了:Mate 50卖爆「顶级华为冲刺销量」
根据Omdia最新数据显示,今年一季度和二季度,华为手机出货量分别为560万部和640万部。在国内智能手机市场,华为手机出货量大幅下滑,整体份额都在下滑。但预计这一情况会在四季度...
日期:09-30
n95口罩「N95口罩价格大跳水 单价跌破1块钱!专家:是否戴N95口罩看场合」
一个月前还是紧俏物资的N95口罩,最贵的时候,5元/个还货源不足。而今,N95口罩价格已经大跳水,电商平台不到1元/个的比比皆是。爱国者哥窑相机现状在淘宝、拼多多等电商平台搜索N9...
日期:01-13
钉钉收到×10「钉钉,把AI“收了”」
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。AI大模型军备竞赛已经打响,国内外大小科技公司你方唱罢我登场。但有一个灵魂拷问——未来,技术之上的产品...
日期:04-18
微软称索尼给开发商支付封锁费用,以阻止游戏登陆 XGP
IT之家 8月11日消息,据THEVERGE今日报道,微软在提交给巴西监管机构的文件中表示,索尼通过给开发商支付费用来阻止开发商将其游戏添加到XboxGamePass中。 京东物流研报娭毑是什...
日期:08-12
男子疑因抽烟错过高铁跪地求开门:科普正确补救方法_高铁中途下车抽烟
抽烟不仅有害身体健康,还有可能耽误事。小米三门冰箱215l调温开关怎么调关据报道,1月19日,江苏徐州一大叔在高铁停靠间隙下车抽烟,因错过广播而导致未能及时上车,于是在列车关门...
日期:01-20
通用、丰田叫停3万美元的电动汽车合作开发计划_通用汽车 丰田
10月26日消息,由于市场需求低于预期且市场环境不断变化,通用汽车和本田汽车证实将放弃共同开发低价电动汽车的计划。索尼公布ps5最新固件更新内容双11实体店有活动吗一年半之...
日期:10-26
国产手机再突破:全球首发26G内存+7000毫安大电池+透明机身!_国产内存最大的手机
虽然苹果iPhone一直被认为是手机行业的标杆产品,但要论大胆的创新能力,和安卓手机比还是过于保守了。苹果对iPhone强调的更多是整体的体验,而安卓则更多是核心配置上的狂野升级...
日期:07-20
火箭发射成功!印度信心爆棚:再扔大招 将进行载人航天测试_印度发射火箭成功了吗
很显然,现在印度在航天飞行方面信心爆棚,其宣布将从明年2月开始为其首次载人航天进行一系列飞行测试。soul猫控印度空间研究组织载人航天飞行中心主任乌马马赫什瓦兰在于新德...
日期:10-31
显示屏分析师:苹果秋季iPhone 14 Pro Max生产量最多「iphone12 pro max 产能」
IT之家 8 月 23 日消息,根据最新爆料,苹果公司计划在 9 月 7 日星期三(预计北京时间 9 月 8 日凌晨)举行首次秋季发布会活动。该活动将重点发布 iPhone 14 系列机型和 Apple Wat...
日期:09-24
树立标杆、示范引领,联想获得两项“新基建”相关大奖
  昨天,联想在“新基建”方面的实力得到了行业和学界的认可:“2020新基建优秀项目集”成果公布,联想集团支持的北京延庆能源互联网绿色云计算中心项目入选“2020新基建与行...
日期:07-14
外媒:拼多多搁置赴港上市计划_拼多多海外上市
12月29日消息,科技媒体The Information周三援引知情人士的话报道称,包括拼多多和满帮在内的多家在美上市中国科技公司已搁置或取消有关在香港上市的谈判。小刀电动车省电在这...
日期:12-29
我国成功发射可重复使用试验航天器_我国可重复使用试验航天器成功着陆
今天是太空与您相伴的【第1564期】 2022年8月5日,我国在酒泉卫星发射中心,运用长征二号F运载火箭,成功发射一型可重复使用的试验航天器,这是长征二号F运载火箭第18次执行发射...
日期:09-17
Windows 8文件管理仍将改进
  据国外媒体报道,Windows 8文件管理还将继续改进。   微软已经准备增加Windows 8系统早期测试人员的数量。微软同时强调,Windows 8仍然处于早期开发阶段。   微软Wind...
日期:07-22
市监局回应山姆泡面桶被炒至1999元 没有出现恶意加价「山姆便当」
深圳市市场监督管理局近日通过官方微信平台,对“合味道泡面桶被炒到1999元”的事件进行了回应。据报道,这款原价168元的泡面桶在二手市场上被炒到500-800元不等,甚至有人标出19...
日期:07-05
今天是世界表情符号日:研究显示我国表情包日发送量达6亿次「世界表情日是什么时候?是怎么决定的?」
7月17日是世界表情包日”。据央视财经报道,研究数据显示,在我国,每日表情包发送量为6亿次左右。表情包的真正盛行源于社交软件的广泛普及,用户不仅能使用软件自带的表情包,还可以...
日期:07-17
美国公示语「美国公示丫丫回国相关申请 公示期为31天」
美国政府网站公布了一份文件,显示美国鱼类及野生动物管理局(USFWS)收到了“孟菲斯动物园”的申请,申请内容是“将一只圈养繁育的雌性大熊猫,一只雄性大熊猫的尸体,以及大熊猫身上...
日期:03-13