您的位置:首页 > 互联网

解读OpenAI最强文生图模型—DALL·E 3

发布时间:2023-10-24 11:37:13  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

Midjourney、Stable Difusion在商业变现和场景化落地方面获得了巨大成功,这让OpenAI看到了全新的商机,也是推出DALL·E3的重要原因之一。

上周,OpenAI宣布在ChatGPT Plus和企业版用户中,全面开放文生图模型DALL·E3,同时罕见地放出了研究论文。

DALL·E3与前两代DALL·E、DALL·E2相比,在语义理解、图片质量、图片修改、图片解读、长文本输入等方面实现了质的飞跃,尤其是与ChatGPT的相结合,成为OpenAI全新的王牌应用。

论文地址:https://cdn.openai.com/papers/dall-e-3.pdf

下面AIGC开放社区将根据DALL·E3的论文为大家解读其主要技术原理,各个模块的功能。

研究人员发现,文本生成图像模型在遵循详细的图片描述时经常存在各种难题,会忽略提示中的词语或混淆其含义,根本原因就是训练数据集中图像描述的质量较差。

为了验证这一假设,研究人员首先训练了一个生成描述性图像字幕的模型。该模型经过精心训练,可以为图像生成详细和准确的描述。

在使用这个模型为训练数据集重新生成描述后,研究人员比较了在原始描述和新生成描述上训练的多个文本生成图像模型。

结果表明,在新描述上训练的模型在遵循提示方面,明显优于原始描述模型。随后在大规模数据集上使用这种方法训练了——DALL-E3。

从DALL-E3的技术架构来看,主要分为图像描述生成和图像生成两大模块。

图像描述生成模块

该模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述。

研究人员通过构建小规模主体描述数据集、大规模详细描述数据集以及设置生成规则等方法,使模块输出的图像描述信息量大幅提升,为后续生成图像提供强力支持。主要各个模块功能如下:

1)CLIP图像编码器

CLIP是一个训练好的图像文本匹配模型,可以将一张图像编码成一个固定长度的向量,包含了图像的语义信息。DALL-E3利用CLIP的图像编码器,将训练图像编码为图像特征向量,作为条件文本生成的一部分输入。

2)GPT语言模型

DALL-E3基于GPT架构建立语言模型,通过最大化随机抽取文本序列的联合概率,学习生成连贯的文字描述。

3)条件文本生成

将上述两者结合,图像特征向量与之前的单词序列一同输入到GPT语言模型中,就可以实现对图像的条件文本生成。通过训练,该模块学会为每张图像生成细致Descriptive的描述。

4)优化训练

尽管DALL-E3的基础架构已经完成了,但直接训练的结果还不够理想,无法生成细节丰富的描述。所以,研究人员进行了以下技术优化:

  • 构建小规模数据集,专门收集主体物详细描述,微调语言模型,倾向于描述图像主体。

  • 构建大规模详细描述数据集,描述主体、背景、颜色、文本等各个方面,通过微调进一步提升描述质量。

  • 设置生成描述的长度、样式等规则,防止语言模型偏离人类风格。

图像生成模块

该模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度。然后,使用T5Transformer将文本编码为向量,并通过GroupNorm层将其注入diffusion模型,指导图像生成方向。

研究人员认为,额外加入的Diffusion模型显著增强了图片细节生成的效果。具体流程如下:

1)图像压缩

将高分辨率图像先通过VAE模型压缩为低维向量,以降低图像生成的难度。DALL-E3采用8倍下采样,256px图像压缩为32x32大小的latent向量。

2)文本编码器

使用T5Transformer等网络将文本提示编码为向量,以便注入到图像生成模型中。

3)Latent Diffusion

日本福岛第一核电站发生严重的核泄漏

这是图像生成的核心技术,将图像生成问题分解为多次对噪声向量的小规模扰动,逐步邻近目标图像。关键是设计恰当的前向过程和反向过程。

4)文本注入

将编码好的文本向量,通过GroupNorm层注入到Latent Diffusion模型中,指导每轮迭代的图像生成方向。

5)优化训练

研究人员发现,在压缩image latent空间上再训练一个Diffusion模型,可以进一步提升细节生成质量。这也是DALL-E3比前两代生成的图片质量更好的原因之一。

CLIP评估数据

研究人员首先利用CLIP模型计算DALL-E3生成图片与原描述文本的相似度,即CLIP得分。他们随机抽取了MSCOCO数据集中4096条图像描述作为提示文本,分别让DALL-E2、DALL-E3和Stable Diffusion XL生成对应图片,然后计算三者的平均CLIP得分。

结果显示,DALL-E3的CLIP得分达到32.0,优于DALL-E2的31.4和Stable Diffusion XL的30.5。

这表明DALL-E3生成的图片与原始描述文本的契合度更高,文本指导图像生成的效果更好。

Drawbench评估数据

在Drawbench数据集上比较了各模型的表现。该数据集包含许多脆弱的文本提示,考验模型对提示的理解力。

研究人员使用GPT-V这个配备视觉能力的语言模型来自动判断生成图片的正确性。

在短文本提示的子测试中,DALL-E3正确生成图像的比例达到70.4%,显著超过DALL-E2的49%和Stable Diffusion XL的46.9%。

在长文本提示上,DALL-E3的正确率也达到81%,继续领先其他模型。

T2I-CompBench评估

通过T2I-CompBench中的相关子测试,考察模型对组合类提示的处理能力。在颜色绑定、形状绑定和质感绑定三项测试中,DALL-E3的正确绑定比例均高居各模型之首,充分展现了其理解组合提示的强大能力。

人工评估

研究人员还邀请了人工在遵循提示、风格连贯性等方面对生成样本进行判断。在170条提示的评估中,DALL-E3明显优于Midjourney和Stable Diffusion XL。

荣耀畅玩30plus可以入手吗


返回网站首页

本文评论
苹果A16芯片造价曝光:达A15的2.4倍_2022年苹果a16芯片
中关村在线消息:近日,有外媒曝光了iPhone 14 Pro/Pro Max两款机型内搭载的A16芯片的信息,称其造价高达110美元(折合人民币约782元),是上代A15仿生芯片的2.4倍有余。根据介绍,A16仿...
日期:10-09
HUAWEI AppGallery Connect携手多家服务商,打造翻译服务“新引擎”(huawei link app)
  HUAWEI AppGallery Connect翻译服务全新升级,携手新宇智慧、语言桥等多家服务商为全球开发者提供优质的翻译服务,解决应用在全球分发时面临的多语言本地化问题,通过平...
日期:07-16
微软研究表示 GPT-4 已足够应对医疗任务
本文概要:1. 微软研究认为 GPT-4足够应对医疗任务,可以加速医疗流程并提高效率。2. GPT-4在医疗领域展现出了令人印象深刻的能力,可以处理大规模的非结构化患者数据。新华三...
日期:08-14
7c+ Gen 3 的 Chromebook 项目夭折 「消息称高通骁龙」_chromebook 7310
IT之家 8 月 13 日消息,据 Chromeunboxed 报道,原本备受期待的搭载高通骁龙 7c + 第三代芯片的 Chromebook 项目已经被取消,这意味着我们将无法看到这款性能强劲、续航出色的 A...
日期:09-18
研究人员提出AI免优化框架DreamIdentity 保持身份一致且可编辑_研究人员接着探讨了这种效应会不会扩展到其他人
7月19日 消息:为了解决人脸身份保存和可编辑性方面的问题,研究人员提供了一个独特的免优化框架(名为 DreamIdentity)。通过创建一个独特的多词多尺度身份编码器 (M2ID 编码器),...
日期:07-19
迪士尼拟在美国推出低价流媒体会员产品:将插播广告_迪士尼互动广告
  北京时间 3 月 4 日早间消息,据报道,迪士尼之前推出“Disney+”进入了全球网络视频市场,据一位知情人士最新透露,该公司准备推出一种全新会员产品,资费更便宜,但是将会插播广...
日期:01-20
同比下降8.2% 叮咚买菜2023年Q1营收50亿元_叮咚买菜最新估值
【】5月13日消息,叮咚买菜发布截至3月31日的2023年第一季度财报。财报显示,叮咚买菜第一季度总营收为49.975亿元(约合7.277亿美元),同比下降8.2%;净亏损5240万元(约合760万美元),而20...
日期:09-28
微软为 Win11 重新设计的原生应用现已面向更多用户推出_windows11系统
  1 月 11 日消息,今年 Windows 前几个重大更新都是关于 Windows 11 全新的内置应用。虽然新式记事本应用目前只对 Beta Channel 用户开放,但照片应用和媒体播放器现已面向...
日期:07-17
Intel 13代酷睿国行价格公布!有的涨400、有的降100「10代酷睿什么时候降价」
Intel今天正式发布了Raptor Lake 13代酷睿处理器、Z790主板芯片组,国行价格也已公开。13代酷睿首发还是六款K、KF系列无锁频版本,具体价格如下——emui9.0使用感受- i5-13600KF...
日期:09-29
林俊杰发文回应买虚拟地产浮亏91% 12.3万美元仅剩1万美元_林俊杰豪宅视频
最近,ChatGPT和AI技术备受关注,而前几年备受瞩目的元宇宙概念大火之后便很快熄火崩盘,近乎无人问津。这也导致了很多元宇宙概念股票大幅下滑,相关公司业绩也直线下降,如Facebook...
日期:04-10
曝三星Galaxy S24基础款有Exynos 2400和骁龙8 Gen 3 for Galaxy两种处理器「三星s22什么处理器」
据国外科技媒体SamMobile报道,三星计划在明年年初推出的Galaxy S24系列中再次回归Exynos系列芯片。不过,只有Galaxy S24基础款会配备Exynos 2400,且并非适用于所有市场。报道称...
日期:04-25
AIGC 时代,如何 Think Different_我们如何在ai时代生存
声明:本文来自于微信公众号 雪豹财经社(ID:xuebaocaijingshe),作者:瀚星,授权转载发布。1997年7月,苹果公司创始人、前CEO史蒂夫·乔布斯,带着一则日后广为流传的创意广告重回管理...
日期:06-21
华为手机王者归来!Mate 60冲上热搜:线下门店排长队抢购、限量卖_2022年华为mate60
快科技8月29日消息,今日,华为Mate60Pro正式开售,目前仅提供12GB512GB一款配置,售价6999元。根据数码博主数码疯报”晒出的深圳华为旗舰店照片,许多消费者排长队等着购买华为Mate6...
日期:08-29
小屏党要抓紧买了!古尔曼预测iPhone 13 mini将于苹果发布会后停产「iphone13mini发售」
苹果在2020年推出了首款“mini”机型——iPhone 12 mini,一年后又推出了iPhone 13 mini。然而,这款小屏手机的销售情况并不理想,最终在去年被iPhone 14 Plus所取代。这款5.4英...
日期:09-11
谷歌Pixel 8系列手机包装盒曝光:外观基本属实_谷歌pixel5开箱视频
日前,知名博主@PBK在网络上曝光了谷歌Pixel 8系列手机的包装盒照片,照片显示,Pixel 8手机的外观设计已经确定。据该博主介绍,从包装盒正面信息来看,此前网上泄露的外观图片基本属...
日期:10-01
facebook频繁发帖「扎克伯格:Facebook没有暗中给帖子限流,系统原因导致犯错」
newifi路由器  讯 北京时间8月29日早间消息,据报道,近日,Meta CEO马克·扎克伯格(Mark Zuckerberg)在播客节目Joe Rogan Experience的上表示,Facebook没有“影子禁令”(shadow ba...
日期:08-29
三星考虑换默认搜索引擎:谷歌30亿美元收入恐泡汤 紧急开发AI搜索
快科技4月17日消息,安卓手机巨头三星电子正考虑将其设备上的默认搜索引擎替换成微软公司的必应(Bing),目前默认的是谷歌搜索。根据内部消息,谷歌对三星更换默认搜索引擎的威胁感...
日期:04-18
美团外卖进军香港 月入最高可达3.5万港元「香港有美团骑手吗」
2月20日 消息:据香港经济日报,美团已经正式进军香港。他们正在多个渠道发布招聘广告,近日正式开始招募送递员。消息人士透露,这是美团准备外卖服务的第一步。小米10Pro振幅iqoo...
日期:02-22
外媒爆料华为海思下月发布麒麟990 5G基带领先高通半年以上_华为海思麒麟990相当于骁龙多少
  报道中提到,Mate 30系列会在今年9月19日亮相,而在这之前 ,华为将在德国IFA大会上发布麒麟新一代旗舰处理器,命名上可能直接跳过原来的方式,既冠以麒麟990的称号。   8月1...
日期:10-08
华为智慧屏安装第三方软件最新教程,一招就能搞定!_华为智慧屏可以安装第三方软件吗?
  鸿蒙2.0发布后,华为智慧屏所有型号也将陆续被升级成鸿蒙2.0系统。那么鸿蒙2.0系统的华为智慧屏还能安装第三方软件吗?如果可以,需要怎么操作呢?   今天给大家介绍一...
日期:12-19