您的位置:首页 > 互联网

基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了

发布时间:2024-03-11 11:15:41  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

这个模型和 Sora 一样采用了 DiT 框架。

众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。

于是关键的问题来了:我们能以怎样的方式将这些新元素高效地整合进现有模型,依托有限的资源让模型变得更强大?

为了探索这个问题,华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法:由弱到强式训练(weak-to-strong training)。

论文标题:PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for4K Text-to-Image Generation

论文地址:https://arxiv.org/pdf/2403.04692.pdf

项目页面:https://pixart-alpha.github.io/PixArt-sigma-project/

他们的研究基于他们去年十月提出的一种高效的文生图训练方法 PixArt-α,参阅机器之心报道《超低训练成本文生图模型 PixArt 来了,效果媲美 MJ,只需 SD10% 训练时间》。PixArt-α 是 DiT(扩散 Transformer)框架的一种早期尝试。而现在,随着 Sora 登上热搜以及 Stable Diffusion 层出不穷的应用,DiT 架构的有效性得到了研究社区越来越多工作的验证,例如 PixArt, Dit-3D, GenTron 等1。

该团队使用 PixArt-α 的预训练基础模型,通过整合高级元素以促进其持续提升,最终得到了一个更加强大的模型 PixArt-Σ。图1展示了一些生成结果示例。

长安通周卡

PixArt-Σ 如何炼成?

具体来说,为了实现由弱到强式训练,造出 PixArt-Σ,该团队采用了以下改进措施。

更高质量的训练数据

该团队收集了一个高质量数据集 Internal-Σ,其主要关注两个方面:

(1) 高质量图像:该数据集包含3300万张来自互联网的高分辨率图像,全都超过1K 分辨率,包括230万张分辨率大约为4K 的图像。这些图像的主要特点是美观度高并且涵盖广泛的艺术风格。

(二) 密集且准确的描述:为了给上述图像提供更精准和详细的描述,该团队将 PixArt-α 中使用的 LLaVA 替换成了一种更强大的图像描述器 Share-Captioner。

不仅如此,为了提升模型对齐文本概念和视觉概念的能力,该团队将文本编码器(即 Flan-T5)的 token 长度扩展到了大约300词。他们观察到,这些改进可以有效消除模型产生幻觉的倾向,实现更高质量的文本 - 图像对齐。

下表1展示了不同数据集的统计数据。

高效的 token 压缩

为了增强 PixArt-α,该团队将其生成分辨率从1K 提升到了4K。为了生成超高分辨率(如2K/4K)的图像,token 数量会大幅增长,这就会导致计算需求大幅增长。

为了解决这一难题,他们引入了一种专门针对 DiT 框架调整过的自注意力模块,其中使用了键和值 token 压缩。具体来说,他们使用了步长为2的分组卷积来执行键和值的局部聚合,如下图7所示。

此外,该团队还采用了一种专门设计的权重初始化方案,可在不使用 KV(键 - 值)压缩的前提下从预训练模型实现平滑适应。这一设计可有效将高分辨率图像生成的训练和推理时间降低大约34%。

由弱到强式训练策略

该团队提出了多种微调技术,可快速高效地将弱模型调整为强模型。其中包括:

(1) 替换使用了一种更强大的变分自动编码器(VAE):将 PixArt-α 的 VAE 替换成了 SDXL 的 VAE。

(二) 从低分辨率到高分辨率扩展,这个过程为了应对性能下降的问题,他们使用了位置嵌入(PE)插值方法。

(三) 从不使用 KV 压缩的模型演进为使用 KV 压缩的模型。

实验结果验证了由弱到强式训练方法的可行性和有效性。

通过上述改进,PixArt-Σ 能以尽可能低的训练成本和尽可能少的模型参数生成高质量的4K 分辨率图像。

具体来说,通过从一个已经预训练的模型开始微调,该团队仅额外使用 PixArt-α 所需的9% 的 GPU 时间,就得到了能生成1K 高分辨率图像的模型。如此表现非常出色,因为其中还替换使用了新的训练数据和更强大的 VAE。

此外,PixArt-Σ 的参数量也只有0.6B,相较之下,SDXL 和 SD Cascade 的参数量分别为2.6B 和5.1B。

PixArt-Σ 生成的图像的美观程度足以比肩当前最顶级的文生图产品,比如 DALL・E3和 MJV6。此外,PixArt-Σ 还展现出了与文本 prompt 细粒度对齐的卓越能力。

图2展示了一张 PixArt-Σ 生成4K 高分辨率图像的结果,可以看到生成结果很好地遵从了复杂且信息密集的文本指令。

小米13pro什么时候开发布会

实验

实现细节

训练细节:对于执行条件特征提取的文本编码器,该团队按照 Imagen 和 PixArt-α 的做法使用了 T5的编码器(即 Flan-T5-XXL)。基础扩散模型就是 PixArt-α。不同于大多数研究提取固定的77个文本 token 的做法,这里将文本 token 的长度从 PixArt-α 的120提升到了300,因为 Internal-Σ 中整理的描述信息更加密集,可以提供高细粒度的细节。另外 VAE 使用了来自 SDXL 的已预训练的冻结版 VAE。其它实现细节与 PixArt-α 一样。

模型是基于 PixArt-α 的256px 预训练检查点开始微调的,并使用了位置嵌入插值技术。

最终的模型(包括1K 分辨率)是在32块 V100GPU 上训练的。他们还额外使用了16块 A100GPU 来训练2K 和4K 图像生成模型。

评估指标:为了更好地展示美观度和语义能力,该团队收集了3万对高质量文本 - 图像,以对最强大的文生图模型进行基准评估。这里主要是通过人类和 AI 偏好来评估 PixArt-Σ,因为 FID 指标可能无法适当地反映生成质量。

性能比较

图像质量评估:该团队定性地比较了 PixArt-Σ 与闭源文生图(T2I)产品和开源模型的生成质量。如图3所示,相比于开源模型 SDXL 和该团队之前的 PixArt-α,PixArt-Σ 生成的人像的真实感更高,并且也有更好的语义分析能力。与 SDXL 相比,PixArt-Σ 能更好地遵从用户指令。

PixArt-Σ 不仅优于开源模型,而且与当前的闭源产品相比也颇具竞争力,如图4所示。

生成高分辨率图像:新方法可以直接生成4K 分辨率的图像,而无需任何后处理。此外,PixArt-Σ 也能准确遵从用户提供的复杂和详细的长文本。因此,用户无需费心去设计 prompt 也能得到让人满意的结果。

人类 / AI(GPT-4V)偏好研究:该团队也研究了人类和 AI 对生成结果的偏好。他们收集了6个开源模型的生成结果,包括 PixArt-α、PixArt-Σ、SD1.5、Stable Turbo、Stable XL、Stable Cascade 和 Playground-V2.0。他们开发了一个网站,可通过展现 prompt 和对应的图像来收集人类偏好反馈。

使用电子设备时间过长带来的危害

人类评估者可根据生成质量以及与 prompt 的匹配程度来给图像排名。结果见图9的蓝色条形图。

可以看出人类评估者对 PixArt-Σ 的喜爱胜过其它6个生成器。相比于之前的文生图扩散模型,如 SDXL(2.6B 参数)和 SD Cascade(5.1B 参数),PixArt-Σ 能以少得多的参数(0.6B)生成质量更高且更符合用户 prompt 的图像。

此外,该团队还使用了先进的多模态模型 GPT-4Vision 来执行 AI 偏好研究。他们的做法是给 GPT-4Vision 提供两张图像,让它基于图像质量和图像 - 文本对齐程度进行投票。结果见图9中的橙色和绿色条形图,可以看到情况与人类评估基本一致。

该团队也进行了消融研究来验证各种改进措施的有效性。更多详情,请访问原论文。

参考文章:1.https://www.shoufachen.com/Awesome-Diffusion-Transformers/


返回网站首页

本文评论
《祈》水下舞蹈_水下中国舞《祈》完整版奉上 当贝投影F3陪你大屏观舞!
  最近小编被河南卫视的水下舞蹈给整的上头了,也太惟妙惟肖了吧!!翩若惊鸿,婉若游龙这个形容也太到位了!真的是延迟感叹!   前两天看到说河南卫视杀疯了很厉害但是没去看...
日期:06-07
陈明杰:傲游已全盘掌握浏览器内核
  不久前举行的微博训练营上,傲游CEO陈明杰在与网友对话时自信宣称:傲游已经全盘掌握了浏览器内核技术,并对傲游的浏览器产品有“做到世界领先”的信心。陈明杰说:“我们跟其...
日期:07-23
苏宁零售云:一季度将入驻抖音美团3000店__苏宁零售云加盟店现状
1月19日消息,苏宁易购发布了2024年“门店场景、产品供给、服务履约、终端运营”四大赋能策略。零售云宣布,在终端运营升级方面,2024年一季度将入驻抖音与美团3000店。据悉,零售...
日期:01-19
微博将于9月1日发布2022年第二季度财报(微博将于9月1日发布2022年第二季度财报英文)
高端化妆品连锁 查看最新行情   中国北京/2022年8月16日— 专供人们创作、分享和发现内容的领先社交媒体平台微博公司 (NASDAQ GS: WB; HKEX: 9898) 定...
日期:08-19
网友称因高速太堵跟领导请假被拒:想休息下_高速堵车联系谁
2月18日消息,微博话题因为高速太堵跟领导请假被拒了”上了热搜榜。据国内多家媒体报道,一位网友从广西出发前往上海,因堵车滞留在半路上,想和领导申请请假一天。聊天记录显示,这...
日期:02-18
配备两亿像素!小米12T系列或许将于9月份正式登场_小米11pro2亿像素
【手机中国新闻】此前在7月4日,小米举办了一场新品发布会,带来了旗下的12S系列三款旗舰级手机。这三款产品,均和知名相机厂商徕卡进行了联名,尤其是最顶配机型小米12S Ultra,更是...
日期:09-11
检查更新太费力!媒体指出微软应该在Windows Update中增加更新说明_microsoft update更新有必要吗
  近日,Neowin发文指出:微软应该在Windows Update(Windows 更新程序)中增加对此次更新内容的说明,从而方便用户检查并判断该更新是否紧急。   据悉,对于部分用户而言,比起微软...
日期:07-17
周鸿祎毕业学校「周鸿祎回应清华读博:重新去学习做一个工程师」
快科技6月28日讯,周鸿祎今日再度谈及自己去清华读博一事,他表示,我最近不也是又报名上了清华,电子信息专业,重新去学习做一个工程师。人工智能的发展还是要以人为本。”按照周鸿...
日期:06-29
chromium内核开发_粉丝提前发布Chromium开源操作系统 或为谷歌双刃剑
  谷歌将Chrome操作系统定位为一个开源的项目,因此定期公布Chromium代码,以鼓励其他开发者研究、修改和作出贡献。意外的是,一些开发者通过 整理、完善这些代码提前推出了可...
日期:07-29
open的创始人是谁「突发!OpenAI创始人兼CEO被“扫地出门”」
当地时间周五(17日),人工智能公司OpenAI宣布,创始人山姆·奥特曼(Sam Altman)将辞去首席执行官一职,并退出董事会。该公司表示,首席技术官米拉·穆拉提(Mira Murati)被任命为临时首席...
日期:11-18
《漫长的季节》开播 评分高达9.1 网友:被秦昊扮相惊到「《漫长的冬季》」
4月26日,由辛爽执导,范伟、秦昊和陈明昊领衔主演的网剧《漫长的季节》在开播后获得了无数好评。目前该剧在豆瓣评分上升至9.1,成为2023年国产剧中评分最高的,甚至超过了经典悬疑...
日期:04-26
不只卫星通信,消息称荣耀 Magic6 系列手机测试可变光圈、等技术_荣耀magic3dc调光
IT之家 12 月 11 日消息,日前,一款型号为 BVL-AN16 的新机通过中国质量认证中心 3C 认证,预计为荣耀 Magic 6 Pro 手机,距离新机发布又近了一步。据博主 @数码闲聊站 今日爆料,荣...
日期:12-11
amd锐龙7 4000「AMD锐龙7000刚发布就减产!两大原因很无奈」
据外媒报道,根据AMD的一份内部报告,新鲜发布的锐龙7000系列正面临减产的尴尬。这份报告称,眼下全球PC市场萎靡,新的Zen4 AM5平台市场接受度也比较一般,尤其是DDR5内存、PCIe 5.0...
日期:10-25
周鸿祎新书遭盗版 本人:我有点意外 书上架还没几天「周鸿祎自述pdf」
5月17日消息,周鸿祎发微博表示,朋友买了一本新书,结果是盗版书籍。周鸿祎感到意外,毕竟书还没上架几天”。周鸿祎还说,不想买盗版的朋友可以去俞敏洪的东方甄选,售价58元。据悉,这...
日期:05-18
互联网核心是什么意思「《中国互联网核心趋势年度报告》:新线市场成品牌增长新引擎」
12月20日消息,QuestMobile发布《中国互联网核心趋势年度报告(2023)》,报告总结了2023年科技行业呈现出的几大趋势:互联网广告市场增速正在触底反弹;生成式AI基于自动化和智能化特...
日期:12-20
阿里未来几周与私募公司商讨收购雅虎问题_阿里回购雅虎股权
  10月21日消息,据国外媒体报道,阿里巴巴集团首席执行官马云周四表示,阿里巴巴集团正寻求在美国寻找合作伙伴,还希望在未来数周内与私募公司进行会谈,探讨可能出价收购雅虎的...
日期:07-24
苹果最新笔记本电脑_苹果最新笔记本电脑什么时候出
苹果公司一直以来都是科技领域的顶尖品牌,而其笔记本电脑一直以来都备受好评。近日,苹果公司推出了全新的笔记本电脑,相信会吸引粉丝们的注意。小米做的车首先,这款笔记本电脑最...
日期:05-31
淘系和抖音电商的下一步「抖音电商入门」
声明:本文来自于微信公众号 乱翻书(ID:luanbooks),作者:乱翻书,授权转载发布。又是一年双十一,我跟火星文化&卡思学苑的创始人李浩、资深电商行业观察家倪叔和财经博主、互联网行...
日期:11-19
爆火的秦岭隧道视频系拼接 作者道歉:犯了知识性错误_秦岭隧道图
近日,一段短视频在网络上迅速走红。视频中,一辆汽车穿越秦岭隧道,隧道两端的景色截然不同,突显了秦岭作为中国南北分界线的地理重要性。视频发布者表示:“穿过秦岭隧道后我才明...
日期:02-27
《暗黑破坏神4》与《魔兽世界》联动:巫妖王的无敌坐骑登场!_暗黑破坏神4大魔王
巫妖王的无敌坐骑现在已经加入了《暗黑破坏神4》,玩家可以花费2500白金币购买这个坐骑,但这个活动只限时一天。此外,如果玩家想要装饰这匹战马,还可以使用统御之盔和霜之哀伤来...
日期:10-22