您的位置:首页 > 互联网

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

发布时间:2024-10-08 14:46:32  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。

自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。

Playground Research最近发布了一篇论文,详细介绍了团队最新的、基于DiT的扩散模型Playground v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。

论文链接:https://arxiv.org/abs/2409.10695

数据链接:https://huggingface.co/datasets/playgroundai/CapsBench

与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进行文本到图像生成任务。

此外,为了提高图像描述的质量,研究人员开发了一个内部描述生成器(in-house captioner),能够生成不同详细程度的描述,丰富了文本结构的多样性,还引入了一个新的基准CapsBench来评估详细的图像描述性能。

实验结果表明,PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色;用户偏好研究表明,PGv3模型在常见的设计应用中,如表情包(stickers)、海报和logo设计,具有超越人类的图形设计能力,还能够精确控制RGB颜色和多语言理解。

PGv3模型架构

Playground v3(PGv3)是一个潜扩散模型(LDM),使用EDM公式进行训练。像DALL-E3、Imagen2和Stable Diffusion3等其他模型一样,PGv3旨在执行文本到图像(t2i)生成任务。

PGv3完全集成了一个大型语言模型(Llama3-8B),以增强其在提示理解和遵循方面的能力。

文本编码器

Transformer模型中的每层捕捉到的表示不同,包含不同级别的单词级和句子级信息,标准做法是使用T5编码器或CLIP文本编码器的最后一层输出,或是结合倒数第二层的输出,不过,研究人员发现选择用于调节文本转图像模型的最佳层非常麻烦,特别是使用解码器风格的大型语言模型时,具有更复杂的内部表示。

图片

研究人员认为,信息流通过LLM每层的连续性是其生成能力的关键,而LLM中的知识横跨了所有层,而不是被某一层的输出所封装,所以PGv3在设计时,复制了LLM的所有Transformer块,可以从LLM的每个对应层中都获取隐藏嵌入输出。

这种方法可以充分利用LLM完整的思考过程,能够引导模型模仿LLM的推理和生成过程,所以在生成图像时,可以实现更好的提示遵循和一致性能力。

模型结构

PGv3采用了DiT风格的模型结构,图像模型中的每个Transformer块都设置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。

在扩散采样过程中,语言模型部分只需要运行一次,就可以生成所有中间隐藏嵌入。

与大多数传统的基于CNN的扩散模型不同,Transformer模型将图像特征的自注意力与图像和文本特征之间的交叉注意力分开,然后进行联合注意力操作,可以从图像和文本值的组合池中提取相关特征,并且能减少计算成本和推理时间,下面还有一些对性能提升有用的操作:

1. Transformer块之间的U-Net跳跃连接。

2. 中间层的token下采样,在32层中,在中间层将图像键和值的序列长度减少了四倍,使整个网络类似于只有一个下采样的传统卷积U-Net,略微加快了训练和推理时间,而且没有性能下降。

3. 位置嵌入,与llama3中的旋转位置嵌入(RoPE)相同,由于图像是二维的特征,所以研究人员探索了2D版本的RoPE:

插值-PE(interpolating-PE)方法不管序列长度如何,保持起始和结束位置ID固定后,在中间插值位置ID,不过该方法在训练分辨率上严重过拟合,并且无法泛化到未见过的纵横比。

相比之下,扩展-PE(expand-PE)方法按序列长度成比例增加位置ID,不使用任何技巧或归一化,性能表现良好,没有显示出分辨率过拟合的迹象。

新的VAE

潜扩散模型(LDM)的变分自编码器(VAE),对于确定模型的细粒度图像质量上限来说非常重要。

研究人员将VAE的潜通道数从4增加到16,增强了合成细节的能力,比如较小的面部和文字;除了在256×256分辨率下进行训练外,还扩展到512×512分辨率,进一步提高了重建性能。

苹果即将发布的产品

CapsBench描述基准

图像描述评估是一个复杂的问题,目前的评估指标主要分为两类:

1. 基于参考的指标,如BLEU、CIDEr、METEOR、SPICE,使用一个真实描述或一组描述来计算相似度作为质量度量,模型得分受到参考格式的限制;

2. 无参考指标,如CLIPScore、InfoMetIC、TIGEr,使用参考图像的语义向量或图像的多个区域来计算所提出描述的相似度指标,但缺点是,对于密集图像和长而详细的描述,语义向量不具备代表性,因为包含的概念太多。

一种新型的评估方法是基于问题的指标,从描述中生成问题,并使用这些问题评估所提出的描述,有助于全面评估文本到图像模型。

受到DSG和DPG-bench的启发,研究人员提出了一种反向的图像描述评估方法,在17个图像类别中生成是-否问答对:通用、图像类型、文本、颜色、位置、关系、相对位置、实体、实体大小、实体形状、计数、情感、模糊、图像伪影、专有名词(世界知识)、调色板和色彩分级。

在评估过程中,使用语言模型仅基于候选描述回答问题,答案选项为是、否和不适用。

CapsBench包含200张图像和2471个问题,平均每张图像12个问题,覆盖电影场景、卡通场景、电影海报、邀请函、广告、休闲摄影、街头摄影、风景摄影和室内摄影。

实验结果

图片

图片

研究人员对比了Ideogram-2(左上),PGv3(右上)和Flux-pro(左下),当以缩略图形式查看时,3个模型的图像看起来相似,定性差异很小。

当放大检查细节和纹理时,就能看出明显区别:Flux-pro生成的皮肤纹理过于平滑,类似于3D渲染的效果,不够真实;Ideogram-2提供了更真实的皮肤纹理,但在遵循提示词方面表现不好,提示词很长的情况下,就会丢失关键细节。

相比之下,PGv3在遵循提示和生成真实图像方面都表现出色,还展现出明显优于其他模型的电影质感。

指令遵循

图片

彩色文本代表模型未能捕捉到的具体细节,可以看到PGv3始终能够遵循细节。随着测试提示变长,并包含更多详细信息时,PGv3的优势变得尤为明显,研究人员将这种性能提升归功于我们集成了大型语言模型(LLM)的模型结构和先进的视觉-语言模型(VLM)图像描述系统。

文本渲染

图片

模型能够生成各种类别的图像,包括海报、logo、表情包、书籍封面和演示幻灯片,PGv3还能够复现带有定制文本的表情包,并凭借其强大的提示遵循和文本渲染能力,创造出具有无限角色和构图的全新表情包。

RGB颜色控制

苹果油油的怎么回事

图片

PGv3在生成内容中实现了异常精细的颜色控制,超越了标准调色板,凭借其强大的提示遵循能力和专业训练,PGv3使用户能够使用精确的RGB值精确控制图像中每个对象或区域的颜色,非常适合需要精确颜色匹配的专业设计场景。

多语言能力

图片

三星S21Ultra渲染图

得益于语言模型天生能够理解多种语言,并构建出良好的相关词表示,PGv3能够自然地解释各种语言的提示,并且多语言能力仅通过少量的多语言文本和图像对数据集(数万张图像)就足够了。

参考资料:

https://arxiv.org/abs/2409.10695


返回网站首页

本文评论
高德、口碑正式合并:阿里旗下本地到店业务将统一整合
据晚点LatePost消息,今天高德召开了一场内部会议,宣布高德和阿里本地生活旗下的到店业务口碑正式合并。同时,未来阿里旗下所有的本地生活到店业务,都将统一整合在高德地图的入口...
日期:03-24
中国太空空间站生活视频「中国空间站"太空菜园"画面公开!一片欣欣向荣」
太空种菜,挑战无限!中国载人航天工程最新消息显示,神舟十八号飞船的宇航员叶光富、李聪、李广苏已在太空驻留逾4个月。从公开的画面中可见,宇航员在空间站内开展了丰富的科学实...
日期:09-19
苹果推iOS 5新开发者测试版 可与iTunes同步
(中涛)北京时间6月25日消息,据美国科技博客网站Silicon Alley Insider(SAI)报道,苹果周五发布了面向外部开发者的iOS 5手机操作系统第二个测试版。与第一个测试版相比,最新测试...
日期:07-30
CES2024:联想Yoga和IdeaPad革新,AI带来极致软硬件体验_联想yoga测评
通信世界网消息(CWW) 2024年1月9日,在CES2024上,联想集团展示了新推出的一系列个人电子设备,包括赋能创作过程的Yoga AI笔记本电脑、便于用户进行娱乐和学习的平板电脑、专为日...
日期:01-18
马斯克买下ai.com域名,奥特曼刚砸千万美元购入,4个月转手给钢铁侠
声明:本文来自微信公众号“量子位”(ID:QbitAI),作者:尚恩,授权转载发布。ai.com域名已被马斯克买下,此前OpenAI曾花千万美元购入。现在输入网址ai.com不再跳转ChatGPT,而是马斯克...
日期:08-04
安徽电信天翼“云眼”构筑科技“防线”,打造“智慧安全家”_中国电信 云眼
通信世界网消息(CWW)春节的脚步刚过,电瓶车进梯入户、楼道充电等消防隐患再次成为热议话题,给人们敲响了警钟。然而,在安徽的一些社区,这些安全隐患已不再是居民心中的痛。这一切,...
日期:03-02
终于不用抢了?华为mate60pro推出预约申购,排队发货最迟90天_华为mate60多少钱
近日,华为推出了预约申购模式,用户可以选择申购Mate60Pro机型,申购成功后需要全额付款,随后就不需要再参与抢购,只需耐心等待排队发货即可。根据不同版本的存储容量,申购时间也有...
日期:09-21
小米新款手机一亿像素「10月4日发布 小米款2亿像素手机要来了」
小米官宣10月4日举行全球发布会,发布会上将会发布小米12T和小米12T Pro至少两款新手机。京东家电 刘俊这两款手机的一大看点就是像素的提升,其中,小米12T后置主摄为1.08亿像素,...
日期:10-06
守正出奇:柳传志的适应与颠覆
  刘远举/文       2019年12月18日,联想控股股份有限公司(3396.HK)宣布,按照既定计划,联想控股董事长、执行董事、联想集团创始人柳传志将退休,卸任公司董事长及执行董事...
日期:08-13
涉事主编已被解雇 德国杂志用AI生成车王舒马赫“专访”引争议
众所周知,“F1车王”舒马赫,在2013年发生滑雪意外,颅脑遭遇重创,随后陷入长达数年的昏迷状态,其家庭花费重金为其救治。至今,舒马赫还未完全康复。4月23日消息,近日,德国一本杂志《D...
日期:10-01
小红书开通直播新规「小红书公布时尚主播成长计划以及双11直播间激励政策」
10月10日 消息:近日,小红书直播组发布《时尚主播成长SOP》,将主播的成长过程分成冷启期、成长期、稳定期三个阶段。具体来看,冷启期即主播主要任务是熟悉直播间的操作流程和规...
日期:10-11
视频号直播推广至腾讯全域_视频号直播间怎么推广
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。腾讯为视频号铺了一条通天的主干道,并将其他小路连到主干道上。当大路铺平后,所有的小路都将为大路带...
日期:07-04
微软指责金山Office缺乏竞争力 建言金山早日退出(金山office与微软office关系)
  “我建议国内其他 Office厂商不要做了, 如果坚持继续要做,就得像微 软一样来创新自己的产品。”6月18日, 微软最新一代的办公软件Office2010正式对外发布,作为微软大中华区...
日期:07-30
泡泡玛特摔断了「泡泡玛特的泡泡终于破了」
出品|虎嗅商业消费组作者|苗正卿题图|视觉中国“我们像一个链条一样做事,当一个项目从上到下都被看好时,它的效率和速度会很高;但当我们想要做一些新的尝试时,它可能会出现问题。”...
日期:09-26
曝联发科天玑9400/骁龙8 Gen4涨价:3999时代就此终结_联发科天玑900和高通骁龙870
快科技8月17日消息,博主数码闲聊站爆料,联发科天玑9400、高通骁龙8 Gen4套片涨价,但终端落地肯定不会大涨。酷派COOL 20他还提到,vivo X200系列、OPPO Find X8系列会率先登场,有...
日期:08-17
曝苹果10月份发布会取消:官网直接开卖新品_苹果十一月发布会
  9月26日消息,根据惯例,苹果在秋季发布会上推出新iPhone等新品后,将于10月举办特别活动,推出新iPad、MacBook Pro等新品。  但根据Mark Gurman的最新消息,苹果今年10月份...
日期:10-09
欧盟iphone「苹果因欧盟规定推迟在欧洲推出Apple Intelligence功能」
通信世界网消息(CWW)据媒体报道,苹果公司日前表示,由于欧盟新竞争规则带来的“不确定性”,当今年在其他地区推出iPhone新AI功能时,将不会在欧洲推出这些功能。太空豆什么牌子质量...
日期:06-24
香飘飘日本超市讽核污水后:同款杯套单日销售额超百万 正紧急备货
5月6日消息,近日,有网友晒出香飘飘旗下MECO果汁茶在日本京和商店大久保店的产品上印有嘲讽核污水排海的标语,引发热议。黑色星期五在欧美地区被称为购物狂欢节狄耐克智能双控开...
日期:05-06
高通和小米在全球范围成功进行移动端米级定位_小米高通芯片手机
据高通官方消息,高通技术公司和小米公司宣布,双方已在德国利用搭载第一代骁龙8+移动平台的小米12T Pro成功进行了米级定位验证。运营商趋势据悉,此前小米11Pro/Ultra已率先在中...
日期:10-03
iphone12pro卖点「起售价破万,iPhone 15 Pro 六大独占卖点有哪些?」
2023年1月26日消息,据分析师 Jeff Pu,iPhone15Pro 和 iPhone15Pro Max 将具有多项独占功能,其中包括:钛合金中框带压感的固态音量键和电源键8GB RAM3nm 的 A17芯片潜望长焦速度...
日期:01-26