您的位置:首页 > 互联网

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

发布时间:2024-02-18 13:19:06  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E3

近日,北大、斯坦福、以及爆火的Pika Labs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。

论文地址:https://arxiv.org/pdf/2401.11708.pdf

代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster

论文作者提出了一个全新的免训练文本到图像生成/编辑框架,利用多模态大语言模型(MLLM)强大的思维链推理能力,来增强文本到图像扩散模型的组合性。

简单来说,就是能让文生图模型在面对多个属性和关系的多个对象的复杂文本提示时表现更出色。

话不多说,直接上图:

A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.

一个穿着橙子连衣裙的绿色双马尾女孩坐在沙发上,左边的大窗户下是一张凌乱的办公桌,沙发右上方是一个活泼的水族馆,现实主义风格。

面对关系复杂的多个对象,模型给出的整个画面的结构、人与物品的关系都非常合理,使观者眼前一亮。

而对于同样的提示,我们来看一下当前最先进的SDXL和DALL·E3的表现:

再看一下新框架面对多个对象绑定多个属性时的表现:

From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.

从左到右,一个穿着白色衬衫、扎着金发马尾辫的欧洲女孩,一个穿着印着小鸟的蓝色衬衫、棕色卷发的非洲女孩,一个穿着西装、黑色短发的亚洲年轻人正开心地在校园里散步。

研究人员将这个框架命名为RPG(Recaption,Plan and Generate),采用MLLM作为全局规划器,将复杂图像的生成过程分解为子区域内多个更简单的生成任务。

文中提出了互补的区域扩散,实现区域组合生成,还将文本引导的图像生成和编辑以闭环方式集成到了RPG框架中,从而增强了泛化能力。

实验表明,本文提出的RPG框架优于目前最先进的文本图像扩散模型,包括DALL·E3和SDXL,尤其是在多类别对象合成以及文本图像语义对齐方面。

值得注意的是,RPG框架可以广泛兼容各种MLLM架构(如MiniGPT-4)和扩散骨干网络(如ControlNet)。

RPG

当前的文生图模型主要存在两个问题:1. 基于布局或基于注意力的方法只能提供粗略的空间引导,并且难以处理重叠的对象;2. 基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。

为了解决这些问题,研究人员提出了RPG的三个核心策略,如下图所示:

给定一个包含多个实体和关系的复杂文本提示,首先利用MLLM将其分解为基本提示和高度描述性的子提示;随后,利用多模态模型的CoT规划将图像空间划分为互补的子区域;最后,引入互补区域扩散来独立生成每个子区域的图像,并在每个采样步骤中进行聚合。

多模态重新调整

华为鸿蒙技术最新消息

将文本提示转换为高度描述性的提示,提供信息增强的提示理解和扩散模型中的语义对齐。

使用MLLM来识别用户提示y中的关键短语,获得其中的子项:

使用LLM将文本提示符分解为不同的子提示符,并进行更详细的重新描述:

通过这种方式,可以为每个子提示生成更密集的细粒度细节,以有效地提高生成图像的保真度,并减少提示和图像之间的语义差异。

思想链规划

将图像空间划分为互补的子区域,并为每个子区域分配不同的子提示,同时将生成任务分解为多个更简单的子任务。

具体来说,将图像空间H×W划分为若干互补区域,并将每个增强子提示符分配给特定区域R:

利用MLLM强大的思维链推理能力,进行有效的区域划分。通过分析重新获得的中间结果,就能为后续的图像合成生成详细的原理和精确的说明。

补充区域扩散

在每个矩形子区域内,独立生成由子提示引导的内容,随后调整大小和连接的方式,在空间上合并这些子区域。

这种方法有效地解决了大模型难以处理重叠对象的问题。此外,论文扩展了这个框架,以适应编辑任务,采用基于轮廓的区域扩散,从而对需要修改的不一致区域精确操作。

文本引导的图像编辑

如上图所示。在复述阶段,RPG采用MLLM作为字幕来复述源图像,并利用其强大的推理能力来识别图像和目标提示之间的细粒度语义差异,直接分析输入图像如何与目标提示对齐。

谷歌眼镜停止开发

使用MLLM(GPT-4、Gemini Pro等)来检查输入与目标之间关于数值准确性、属性绑定和对象关系的差异。由此产生的多模态理解反馈将被交付给MLLM,用于推理编辑计划。

我们来看一下生成效果在以上三个方面的表现,首先是属性绑定,对比SDXL、DALL·E3和LMD+:

我们可以看到在全部三项测试中,只有RPG最准确地反映了提示所描述的内容。

然后是数值准确性,展示顺序同上(SDXL、DALL·E3、LMD+、RPG):

——没想到数数这件事情对于文生图大模型还挺难的,RPG轻松战胜对手。

最后一项是还原提示中的复杂关系:

此外,还可以将区域扩散扩展为分层格式,将特定子区域划分为更小的子区域。

如下图所示,当增加区域分割的层次结构时,RPG可以在文本到图像的生成方面实现显著的改进。这为处理复杂的生成任务提供了一个新的视角,使我们有可能生成任意组成的图像。

参考资料:

https://arxiv.org/pdf/2401.11708.pdf


返回网站首页

本文评论
虾米音乐即将关停,智能电视用户推荐使用当贝酷狗音乐(虾米音乐即将关闭)
  令许多网友心痛的消息终于还是来了!1月5日,虾米音乐官方正式宣布,因业务发展上的调整,将于2021年2月5日0点停止虾米音乐的服务。届时,停止所有歌曲试听、下载、评论等...
日期:07-16
小米米家空调清凉版发布:首发1699元 支持30s快速制冷「小米空调制冷怎么样」
2月20日,小米米家空调清凉版大1匹发布,并在小米商城开启预售,建议零售价1999元,首发到手价1699元。台积电2nm芯片小米米家空调清凉版采用大1匹设计,适合面积8-13平方米的房间,支持...
日期:02-22
消息称小米屏下前摄新机搭载骁龙 8 系芯片,极致四窄边设计_小米屏下摄像头技术来自公司
IT之家 1 月 15 日消息,博主@数码闲聊站 此前爆料称,预计小米今年推出新款屏下前摄手机,但不是 MIX 5 系列。今日,这款新机的更多消息也随之曝光。谷歌pixel7pro能开90帧该博主...
日期:01-16
Redmi Note 13 5G系列在印度销售额突破100亿卢比
  【手机中国新闻】2024年1月4日,小米在印度正式推出了最新的Redmi Note 13 5G系列,包括Redmi Note 13 5G、RedmiNote 13 Pro 5G和RedmiNote 13 Pro+ 5G三款智能手机。这些...
日期:01-14
泰国小镇被3500只猴子占据 昔日繁荣已荡然无存_泰国两群猴子街头火拼,疑因双方老大互相看不顺眼
华富里镇,位于泰国首都曼谷以北约90英里处,曾经的繁荣景象如今已荡然无存。如今,3500只猴子肆虐小镇,商场被迫关门,游客和购物者纷纷逃离。中国商人的投资计划也被猴群所吓退。华...
日期:02-04
交通运输部:对5至7座汽车非法从事网约车经营进行精准打击_七座网约车超员一人怎么处理
快科技9月26日消息,日前,交通运输部办公厅发布《关于开展道路运输安全生产突出问题集中整治百日行动”的通知》(以下简称《通知》)。 其中提出,精准打击客运非法违规运营。《通知...
日期:09-26
AI这时代,星辰大海——百度世界2021 明天见(未来已来星辰大海)
  Hi,你的信仰,是什么?   “过去的21年中,每当百度徘徊在十字路口,我都会问自己,什么能够让你真正制胜未来?我认为就是两方面:一是你信仰什么,What do you really believe in;...
日期:07-17
重新定义人像新美学标准  vivo S18 系列新机即将正式发布_vivo新款手机2021款s10
12 月 14 日消息,今晚vivo将带来全新的vivo S18 系列新机,其中影像方面的升级非常显著,将旗舰级配置的相机传感器,带到了主打轻薄的机型上,带来越级的影像体验,尤其是在人像拍摄...
日期:12-15
苹果正在探索在其原始播客中加入广告的可能性_正在前往app store
苹果传统上不在自有播客上销售广告,但最近的事态发展表明,该公司可能正在考虑改变做法。爱奇艺超模节目苹果将在印度生产iphone12从历史上看,苹果的播客一直没有广告。然而,今年...
日期:10-22
我替你们去看了看Cybertruck,这车真的是大到离谱_cybertruck国内预售价格
这两天,应该很多人都刷到特斯拉的 Cybertruck 来中国的消息了吧。从明天开始,Cybertruck 会在下图这八个城市开始巡展,对这台车感兴趣的小伙伴有机会一睹真容了。温馨提示一下,...
日期:01-29
谷歌正改进 Chrome 浏览器性能:启动更快,内存使用减少(谷歌chrome响应时间过长)
  2 月 20 日消息 据 WindowsLatest 报道,根据多个代码提交,谷歌正在开发 “PartitionAlloc-everywhere”功能,以提高 Chrome 浏览器在 Windows 10、Android、Linux 以及可...
日期:07-16
消息称拼多多现阶段Temu业务优先级高于主站
11月29日 消息:据《晚点LatePost》消息,现阶段拼多多Temu业务优先级高于主站。值得一提的是,近期拼多多公司投资者关系页启用新域名pddholdings.com,拼多多投资者关系页面由“...
日期:11-30
李子柒外网收入曝光,停更1年仍月入78万!凭什么?「李子柒首次接受外媒独家专访」
本文转载自运营公举小磊磊(公众号ID:gongjulei),免费阅读200万字新媒体运营知识,提升新媒体运营能力。近期,有一个话题在新媒体圈引起了热议#李子柒外网收入曝光,停更一年仍月入78...
日期:04-28
年末大促丨多模态AI开发利器华为云HiLens Kit直降600元还送豪礼
  12月12日起,华为云宣布开启“华为云12.12会员节”年末回馈活动,超值优惠让利企业,与百万用户共享云上福利。其中,华为云11月推出的多模态AI开发套件HiLens Kit优惠多多。...
日期:10-16
12306官方科普火车下错站怎么办:两种解决方法 免费!_火车站下错站怎么办
快科技12月11日消息,大家日常乘坐火车高铁时,难免有时会下车透透气,尤其是长途火车的旅程。以往总有一些朋友下车放松,结果一不小心火车开走了,这时候火车是万万不会停下的。对此...
日期:12-12
Nothing Phone (2) 配置信息遭曝光 终于用上骁龙旗舰了_nothing2prove
【手机中国新闻】近日,手机中国注意到,有更多关于Nothing Phone (2)的真机上手照片和视频开始流出了。其中,有一张照片曝光了Nothing Phone (2)的详细配置信息。值得注意的是,和...
日期:07-10
全网打卡淄博烧烤:短视频造神、社交平台种草和网红城市的网感
声明:本文来自于微信公众号全媒派(ID:quanmeipai),作者:晏青,授权转载发布。最近,淄博成为国内一众网红城市中的“顶流”。各路大V、媒体、游客纷纷发布打卡淄博烧烤的短视频,不仅...
日期:04-21
智伴携手蒙特梭利认证讲师 倡议家园共育智伴前行
  提起蒙特梭利,只要稍稍关注学前早教的父母们都不陌生。十几年前,当蒙特梭利教学法的中文译本第一次出现在国内,谁也没有想到蒙氏在中国的发展会如此快速,尤其是近年来...
日期:05-28
苏炳添受接见「苏炳添用iPhone 14引热议 本人回应:与小米合约到期 手机摔坏才换」
近日,有不少眼尖的网友发现,中国田径短跑运动员苏炳添开始用iPhone 14发微博,部分网友在评论区质疑他为什么不用小米手机了。夏新手机董事长对此,苏炳添本人亲自回应表示:小米去...
日期:04-06
百度网盘会员和超级「QQ的超级会员体系,百度网盘算是玩明白了」
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,,授权转载发布。日前,百度网盘方面宣布将于11月23日推出新的会员体系,最高等级从目前的SVIP8提升至SVIP10。据悉,随...
日期:11-25