您的位置:首页 > 互联网

苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率

发布时间:2023-10-31 14:58:02  来源:互联网     背景:

声明:本文来自微信公众号“机器之心”(ID:almosthuman2014),编辑:杜伟、小舟,授权转载发布。

习惯了 Stable Diffusion,如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模型,还是苹果做的。

在生成式 AI 时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构,这使得优化更困难,消耗的算力和内存也更多。

怎么办呢?最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超过512×512分辨率的效果,并且生成质量落后于主流的级联或 latent 方法。

我们以 OpenAI DALL-E2、谷歌 IMAGEN 和英伟达 eDiffI 为例,它们通过学习一个低分辨率模型和多个超分辨率扩散模型来节省算力,其中每个组件都单独训练。另一方面,latent 扩散模型(LDM)仅学习低分辨率扩散模型,并依赖单独训练的高分辨率自编码器。对于这两种方案,多阶段式 pipeline 使训练与推理复杂化,从而往往需要精心调整或进行超参。

本文中,研究者提出了俄罗斯套娃式扩散模型(Matryoshka Diffusion Models,MDM)它是用于端到端高分辨率图像生成的全新扩散模型。代码很快将释出。

论文地址:https://arxiv.org/pdf/2310.15111.pdf

该研究提出的主要观点是将低分辨率扩散过程作为高分辨率生成的一部分,通过使用嵌套 UNet 架构在多个分辨率上执行联合扩散过程。

该研究发现:MDM 与嵌套 UNet 架构一起实现了1)多分辨率损失:大大提高了高分辨率输入去噪的收敛速度;2)高效的渐进式训练计划,从训练低分辨率扩散模型开始,按照计划逐步添加高分辨率输入和输出。实验结果表明,多分辨率损失与渐进式训练相结合可以让训练成本和模型质量获得更好的平衡。

该研究在类条件图像生成以及文本条件图像和视频生成方面评估了 MDM。MDM 让训练高分辨率模型无需使用级联或潜在扩散(latent diffusion)。消融研究表明,多分辨率损失和渐进训练都极大地提高了训练效率和质量。

我们来欣赏以下MDM 生成的图片和视频。

方法概览

研究者介绍称,MDM 扩散模型在高分辨率中进行端到端训练,同时利用层级结构的数据形成。MDM 首先在扩散空间中泛化了标准扩散模型,然后提出了专用的嵌套架构和训练流程。

首先来看如何在扩展空间对标准扩散模型进行泛化。

与级联或 latent 方法的不同之处在于,MDM 通过在一个扩展空间中引入多分辨率扩散过程,学得了具有层级结构的单个扩散过程。具体如下图2所示。

具体来讲,给定一个数据点 x ∈ R^N,研究者定义了与时间相关的隐变量 z_t = z_t^1, . . . , z_t^R ∈ R^N_1+...NR。

研究者表示,在扩展空间中进行扩散建模有以下两点优点。其一,我们在推理期间通常关心全分辨率输出 z_t^R,那么所有其他中等分辨率被看作是额外的隐变量 z_t^r,增加了建模分布的复杂度。其二,多分辨率依赖性为跨 z_t^r 共享权重和计算提供了机会,从而以更高效的方式重新分配计算,并实现高效训练和推理。

时时资讯首页

接下来看嵌套架构(NestedUNet)如何工作。

与典型的扩散模型类似,研究者使用 UNet 网络结构来实现 MDM,其中并行使用残差连接和计算块以保留细粒度的输入信息。这里的计算块包含多层卷积和自注意力层。NestedUNet 与标准 UNet 的代码分别如下。

除了相较于其他层级方法的简单性,NestedUNet 允许以最高效的方式对计算进行分配。如下图3所示,研究者早期探索发现,当以最低分辨率分配大部分参数和计算时,MDM 实现了明显更好的扩展性。

最后是学习。

研究者使用常规去噪目标在多个分辨率下训练 MDM,如下公式 (三) 所示。

这里用到了渐进式训练。研究者按照上述公式 (三) 直接对 MDM 进行端到端训练,并展示出了比原始基线方法更好的收敛性。他们发现,使用类似于 GAN 论文中提出的简单渐进式训练方法,极大地加速了高分辨率模型的训练。

这一训练方法从一开始就避免了高成本的高分辨率训练,加速了整体收敛。不仅如此,他们还合并了混合分辨率训练,该训练方法在单个 batch 中同时训练具有不同最终分辨率的样本。

amazfit gts和小米手表

实验及结果

MDM 是一种通用技术,适用于可以逐步压缩输入维度的任何问题。MDM 与基线方法的比较如下图4所示。

AMD R5 320

表1给出了在 ImageNet(FID-50K)和 COCO(FID-30K)上的比较结果。

红魔6spro原神帧率

下图5、6、7展示了 MDM 在图像生成(图5)、文本到图像(图6)和文本到视频(图7)方面的结果。尽管是在相对较小的数据集上进行训练的,但 MDM 仍显示出生成高分辨率图像和视频的强大零样本(zero-shot)能力。

感兴趣的读者可以阅读论文原文,了解更多研究内容。


返回网站首页

本文评论
快手9月受理侵权举报1221条 相比8月下降25%「快手举报犯法吗」
10月10日 消息:日前,快手发布了2022年9月侵权举报受理及处置情况的通知,9月共受理侵权举报1221条。快手表示,为进一步展现平台对于网络侵权行为的“零容忍”态度,严格落实企业主...
日期:10-21
三亚通报67辆新能源客车发生火灾:明火已被彻底扑灭「2020年三亚火灾新闻」
据三亚发布官方消息,1月30日12时38分,三亚市消防救援支队指挥中心接到报警称:位于三亚市天涯区凤凰村空地处停放的新能源客车发生火灾。接到报警后,市消防救援支队立即调派力量8...
日期:01-30
ai和人类共存「研究发现:AI和人类生成的在线内容同样被认为可信」
**划重点:**苹果用户会不会被黑客虚假警告电动牙刷哪个牌子性价比高效果好1. 国家语言能力建设...
日期:11-30
7天涨粉555万,一条视频获赞794万,《逃出大英博物馆》凭什么?「逃出博物馆神秘关卡」
声明:本文来自微信公众号“新榜”(ID:newrankcn),作者:云飞扬1993,编辑:张洁,授权转载发布。“你要带我回中国吗?”最近,短剧《逃出大英博物馆》火了,正片上线5天,单单抖音同名话题...
日期:09-05
首次实现净利润扭亏为盈 奇安信2022年净利润5701万元_688561奇安信股2021年业绩
【】4月28日消息,奇安信发布《2022年年度报告》,2022年营收62.23亿,同比2021年的58.09亿元增长7.12%;2022年净利润5701万元,2021年为净亏损5.55亿元,同比扭亏为盈;2022年扣除非经常...
日期:09-30
小鹏汽车优惠6万「全系优惠1万元!小鹏G6推出限时购车政策:起售价19.99万元」
快科技12月14日消息,据多家媒体报道,小鹏G6全系优惠1万元,售价区间19.99万-26.69万元。hp smart tank 510怎么连接wifi此外,下订700/755版车型,还可享至高5000元选装基金以及20英...
日期:12-15
比亚迪汽车2月各车型销量出炉:继续狂飙 宋家族再破5万「比亚迪2021年2月汽车销量排行榜」
2023年2月比亚迪乘用车销量快报出炉,当月累计销售191664辆,同比增长112.3%。郭明錤苹果iphone 14系列将打破传统当月EV车型90639辆,DM车型101025辆。2月比亚迪新能源乘用车海外...
日期:03-02
荣耀9 128gb「性能灭霸!荣耀90 GT核心规格首曝:荣耀首款24GB运存手机」
快科技12月15日消息,今日,荣耀90 GT正式官宣,号称性能灭霸”,将于12月21日正式发布。 新机官宣后,数码博主数码闲聊站”曝光了该机部分核心规格。 据爆料,荣耀90 GT提供12GB 2...
日期:12-15
多家医院优化流程减少候诊时间_多家医院优化流程减少候诊时间的原因
  中西医“一站式”诊疗,省去楼上楼下跑;线上医保结算,缴费不需排队;医院联动社区,提供“一站式”服务……正值呼吸道传染病高发期,记者探访发现,多家医疗机构优化了就诊流程,让患...
日期:12-08
端午节开车回家要过路费吗「端午节出行有多堵:有人开车1小时仅走1公里!」
6月22日消息,今天是端午三天小长假的第一天,假期出游,堵车是避免不了的存在,这不有人还没出城就已经堵在了路上。实际上从昨天下午,全国多地就迎来了出行高峰期,网友分享的地图实...
日期:06-22
忆恒创源估值「喜讯频传!忆恒创源获FiberHome2022核心合作伙伴奖」
作为是国内领先的企业级SSD产品及技术服务提供商,北京忆恒创源科技股份有限公司(以下简称“忆恒创源(Memblaze)”)高度重视对研发人才的吸引、培养与留用,确保研发团队稳定,为持续...
日期:04-06
2020年360安全大脑披露美国_疫情助涨安防压力 360安全大脑发布《2022年PC安全趋势年终总结》
  2020年,“新冠”疫情的爆发使多数行业均遭受了不小冲击,但网络安全威胁却“异军突起”,大有愈演愈烈的态势。   近日,360安全大脑发布了《2020年PC安全趋势年终总结报告...
日期:07-10
联想拯救者y7000怎么开平板模式「2399元起!联想新款拯救者Y700安卓平板发布:骁龙8 /8.8英寸屏」
联想今日宣布推出全新的拯救者 Y700 二代安卓平板,为用户提供出色的性能和便携性。首发售价从2399元起。Y700 二代安卓平板采用了第一代高通骁龙 8 处理器,可选配12GB或16GB内...
日期:07-22
神州数码运营商行业再突破!入围2020中移动整机柜采购(神州数码企业移动事业部)
  新春将至,捷报频传。2月9日,中国移动发布《中移动信息2020年一级IT云资源池整机柜定制化服务器采购项目-中标候选人公示》,神州数码集团(000034.SZ)旗下全资子公司——...
日期:07-16
软银收购arm花了多少钱「软银正在洽谈收购受益 AI 概念上涨的 VF1 持有的 Arm 25% 股份」
8月14日消息:据知情人士透露,软银集团正在与愿景基金 1 号(VF1)就收购 Arm 有限公司未直接拥有的 25% 股份进行谈判。愿景基金 1 号是 2017 年筹集的 1000 亿美元投资基金。此...
日期:08-14
华为把鸿蒙捐了_华为:鸿蒙全都捐出去了!
  (原标题:华为:已捐献鸿蒙全部基础能力、全部开源)   日前,华为官方刊文称,已于2020年、2021年分两次将鸿蒙OS的基础能力全部捐献给了开放原子开源基金会,并整合其他参与者...
日期:04-12
经济日报:智能网联汽车进入产业布局关键期_智能网联汽车产业的发展
  2022世界智能网联汽车大会室外展区。  新华社记者 任 超摄  随着数字经济加速融入,智能网联汽车已成为汽车产业创新发展的重要方向。工信部数据显示,今年上半年,具备组...
日期:10-03
dr钻戒营销现状「两度被骂上热搜,DR钻戒“真爱”营销难再续」
被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】   文 / 梁又匀  责编 /;高梦阳  编辑;/;梁又...
日期:09-27
网红打卡旅游景点_夺命的野生景点 是如何成为“网红打卡地”的
作者: 乐琰   高温热浪带火了城市周边的避暑休闲游,然而此时却发生了意外。   周末或假期,在四川彭州市龙门山镇小鱼洞社区龙槽沟的河道上,人们铺开桌子搓起了麻将,或在露营...
日期:08-20
美股行情纳指「美股周二:纳指跌近2%,热门中概股普跌,阿里跌逾4%」
4月26日消息,美国时间周二,美股收盘主要股指全线下跌,科技股领跌。投资者消化了一批喜忧参半的企业财报,以及显示美国经济放缓和消费者正承受通胀压力的数据。道琼斯指数收于335...
日期:04-26