您的位置:首页 > 互联网

​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了

发布时间:2023-12-11 16:15:05  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

替代注意力机制,SSM 真的大有可为?

为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。

众所周知,注意力机制是 Transformer 架构的核心组件,对于高质量的文本、图像生成都至关重要。但它的缺陷也很明显,即计算复杂度会随着序列长度的增加呈现二次方增长。这在长文本、高分辨率的图像处理中都是一个令人头疼的问题。

为了解决这个问题,这项新研究用一个可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,开发出了一个名为 Diffusion State Space Model(DIFFUSSM)的新架构。这种新架构可以使用更少的算力,媲美或超越具有注意力模块的现有扩散模型的图像生成效果,出色地生成高分辨率图像。

17大报告提出什么

得益于上周Mamba的发布,状态空间模型 SSM 正受到越来越多的关注。Mamba 的核心在于引入了一种新的架构 ——选择性状态空间模型( selective state space model),这使得 Mamba 在语言建模方面可以媲美甚至击败 Transformer。当时,论文作者 Albert Gu 表示,Mamba 的成功让他对 SSM 的未来充满了信心。如今,康奈尔大学和苹果的这篇论文似乎又给 SSM 的应用前景增加了新的例证。

微软首席研究工程师 Shital Shah 提醒说,注意力机制可能要从坐了很久的王座上被拉下来了。

论文概览

图像生成领域的迅速进展得益于去噪扩散概率模型(DDPMs)。这类模型将生成过程建模为迭代去噪潜变量,当执行足够的去噪步骤时,它们能够产生高保真度的样本。DDPMs 捕捉复杂视觉分布的能力使其在推动高分辨率、照片级合成方面具有潜在的优势。

在将 DDPMs 扩展到更高分辨率方面仍然存在重要的计算挑战。主要瓶颈是在实现高保真生成时依赖自注意力。在 U-Nets 架构中,这个瓶颈来自将 ResNet 与注意力层相结合。DDPMs 超越了生成对抗网络 (GANs),但需要多头注意力层。在 Transformer 架构中,注意力是中心组件,因此对于实现最新的图像合成结果至关重要。在这两种架构中,注意力的复杂性,与序列长度成二次方关系,所以当处理高分辨率图像时将变得不可行。

计算成本促使以往的研究者们使用表示压缩方法。高分辨率架构通常采用分块化(patchifying)或多尺度分辨率。通过分块化可以创建粗粒度表示,降低计算成本,但代价是牺牲关键的高频空间信息和结构完整性。多尺度分辨率虽然可以减少注意层的计算,但也会通过降采样减少空间细节并在应用上采样时引入伪影。

扩散状态空间模型(DIFFUSSM)是一种不使用注意力机制的扩散架构,它旨在解决在高分辨率图像合成中应用注意力机制时出现的问题。DIFFUSSM 在扩散过程中采用了门控状态空间模型 (SSM)。之前的研究表明,基于 SSM 的序列模型是一种有效而且高效的通用神经序列模型。通过使用这种架构,可以使 SSM 核心处理更细粒度的图像表示,消除全局分块化或多尺度层。为进一步提高效率,DIFFUSSM 在网络的密集组件中采用沙漏 (hourglass) 架构。

作者在不同分辨率下验证了 DIFFUSSM 的性能。在 ImageNet 上的实验证明,在各种分辨率下,DIFFUSSM 在 FID、sFID 和 Inception Score 上都取得了一致的改进,并且总 Gflops 更少。

论文链接:https://arxiv.org/pdf/2311.18257.pdf

DIFFUSSM 框架

作者的目标是设计一种扩散架构,能够在高分辨率下学习长程相互作用,而无需像分块化那样进行长度缩减。与 DiT 类似,该方法通过展平图像并将其视为序列建模问题来实现。然而,与 Transformer 不同,这种方法在这个序列的长度上使用次二次(sub-quadratic)计算。

DIFFUSSM 的核心组件是优化处理长序列的门控双向 SSM。为了提高效率,作者在 MLP 层中引入沙漏架构。这种设计在双向 SSM 周围交替扩展和收缩序列长度,同时在 MLP 中特定地减少序列长度。完整的模型架构如图2所示。

具体来说,每个沙漏层接收经过缩短并展平的输入序列 I ∈ R^(J×D),其中 M = L/J 是缩小和放大的比例。同时,整个块,包括双向 SSM,在原始长度上进行计算,充分利用全局上下文。文中使用 σ 表示激活函数。对于 l ∈ {1. . . L},其中 j = ⌊l/M⌋,m = l mod M,D_m =2D/M,计算方程如下所示:

作者在每个层中使用跳跃连接集成门控 SSM 块。作者在每个位置集成了类标签 y ∈ R^(L×1) 和时间步 t ∈ R^(L×1) 的组合,如图2所示。

参数:DIFFUSSM 块中参数的数量主要由线性变换 W 决定,其中包含9D^2+2MD^2个参数。当 M =2时,这产生了13D^2个参数。DiT 变换块在其核心变换层中有12D^2个参数;然而,DiT 架构在其他层组件(自适应层归一化)中具有更多的参数。研究者在实验中通过使用额外的 DIFFUSSM 层来匹配参数。

FLOPs:图3比较了 DiT 和 DIFFUSSM 之间的 Gflops。DIFFUSSM 一层的总 Flops 为

,其中 α 代表 FFT 实现的常数。当 M =2且线性层主导计算时,这大约产生7.5LD^2Gflops。相比之下,如果在这个沙漏架构中使用全长的自注意力而不是 SSM,会有额外的2DL^2Flops。

考虑两种实验场景:1) D ≈ L =1024,这将带来额外的2LD^2Flops,2)4D ≈ L =4096,这将产生8LD^2Flops 并显著增加成本。由于双向 SSM 的核心成本相对于使用注意力的成本较小,因此使用沙漏架构对基于注意力的模型不起作用。正如前面讨论的,DiT 通过使用分块化来避免这些问题,以代价是压缩表示。

实验结果

类别条件图像生成

表1是 DIFFUSSM 与目前所有的最先进的类别条件生成模型的比较结果。

当没有使用无分类器指导时,DIFFUSSM 在 FID 和 sFID 两方面均优于其他扩散模型,将之前非无分类器指导潜在扩散模型的最佳分数从9.62降至9.07,同时使用的训练步骤减少到原来的1/3左右。在训练的总 Gflops 方面,未压缩模型相较于 DiT 减少了20% 的总 Gflops。当引入无分类器指导时,模型在所有基于 DDPM 的模型中获得了最佳的 sFID 分数,超过了其他最先进的策略,表明 DIFFUSSM 生成的图像对于空间失真更具鲁棒性。

DIFFUSSM 在使用无分类器指导时的 FID 分数超越了所有模型,并在与 DiT 相比时保持了相当小的差距(0.01)。需要注意的是,在没有应用无分类器指导的情况下,以减少30% 的总 Gflops 训练的 DIFFUSSM 已经超过了 DiT。U-ViT 是另一种基于 Transformer 的架构,但采用了基于 UNet 的架构,块之间有长跳连接。U-ViT 在256×256分辨率下使用较少的 FLOPs,并在性能上表现更好,但在512×512数据集中情况并非如此。作者主要与 DiT 进行比较,为了公平,没有采用这种长跳连接,作者认为采用 U-Vit 的思想可能对 DiT 和 DIFFUSSM 都有益处。

作者进一步在更高分辨率的基准上使用无分类器指导进行比较。DIFFUSSM 的结果相对强劲,并接近最先进的高分辨率模型,仅在 sFID 上不及 DiT,并获得了可比较的 FID 分数。DIFFUSSM 在302M 张图像上进行了训练,观察了40% 的图像,使用的 Gflops 比 DiT 少了25%。

无条件图像生成

作者将模型的无条件图像生成能力与现有基线进行比较。结果显示在表2中。作者的研究发现,DIFFUSSM 在与 LDM 相当的训练预算下取得了可比较的 FID 分数(差距为 -0.08和0.07)。这个结果突显了 DIFFUSSM 在不同基准和不同任务中的适用性。与 LDM 类似,由于只使用 ADM 总训练预算的25%,因此在 LSUN-Bedrooms 任务中,该方法并未超过 ADM。对于这个任务,最佳 GAN 模型在模型类别上胜过扩散模型。


返回网站首页

本文评论
华为5G智慧海洋解决方案助力海上信息高速路建设_华为海洋网络科技有限公司
通信世界网消息(CWW)为进一步激发5G融合应用创新活力,以5G新一代信息技术赋能海洋经济高质量发展,第六届绽放杯水利海洋专题赛启动仪式于8月10日在泉州成功举办。这是第六届“绽...
日期:08-14
吉利银河L7将率先搭载 吉利神盾电池通过针刺测试_吉利icon2020款银河限量版
5月13日,吉利银河专属的“神盾电池安全系统”在中汽研完成了首次基础安全测试,顺利通过电池针刺、电池包海水腐蚀浸泡、三面跌落重击、外部火烧共4项试验。此次神盾电池首次连...
日期:09-28
引全网吐槽声讨!巴奴就火锅店18元一份土豆就5片致歉:管理失误上错了
日前,网络上一则关于火锅店18元点一份土豆片只有5片的报道火了,引起了极大的关注。苹果被欧盟罚该火锅店名为巴奴,是一家全国连锁品牌,虽然日常确实价格相对高一些,但18元5片土豆...
日期:02-25
苏宁小店便利店的优势_便利店研究报告出炉:苏宁小店构建“到家+到店”综合模式
  11月27日下午,在2019WISE新经济大会“全民消费”论坛上,36氪线下发布了《连锁零售便利店品牌市场性调整与新策略》(或便利店研究报告),分享新经济、新风口下的便利店市场...
日期:07-24
山寨播放器成垃圾图标制造机 每天2万网民被骚扰
  5月12日消息,金山网络云安全中心监测到网民在搜索“倩女幽魂、硬汉、天涯赤子心”等热门大片在线播放时,被暗藏病毒的虚假电影网站欺骗。安装专用播放器之后,病毒会在桌面...
日期:07-27
曝iphone 16外形最新消息16系列大曝光 外观设计成最大卖点 iPhone
来源:中关村在线iPhone 16系列的爆料消息不断涌现,虽然目前距离发布还有大约10个月的时间,但根据现有信息来看,可以得出一些关于iPhone 16系列的预测。首先,在@Majin Bu在X平台上...
日期:12-01
上热搜了!美团宣布除夕放假_美团年前什么时候放假
11月4日消息,微博话题美团宣布除夕放假”上了热搜榜。据报道,美团内部公布了2024年春节放假安排,2月9日除夕当天,所有同学放假一天,假期不占用年假额度,公司将统一处理考勤无需个...
日期:11-04
小米5g百元机「红米百元机重出江湖?放言为普及5G手机而来」
9月29日消息,Redmi红米手机宣布,Redmi千元小金刚再添猛将,Note 11R为普及5G手机疾速而来。雷克萨斯es什么时候涨价的pico创始人周宏伟ipad mini6更换电池价格简单说,小米推出了N...
日期:10-01
阿里魔搭社区开源知识检索模型Ziya-Reader_阿里巴巴魔镜
10月16日 消息:阿里魔搭社区宣布开源Ziya-Reader。Ziya-Reader 是一个针对知识检索的开源模型。当前大模型在处理多文档任务时,如果正确答案不在第一个或末尾的文档中,准确率...
日期:10-16
李雪琴新发型「李雪琴没能笑着走出理发店 网友:这不就是在演我吗?」
继徐志胜给李雪琴画腮红妆之后,李雪琴再次因造型问题成为热门话题,这次要归咎于一位理发师。在理发店中,李雪琴的表情从笑转到哭,可见她对理发结果的不满。新荣耀赵明这位发型师...
日期:11-27
比亚迪销量超越特斯拉「9月新能源车销量出炉:比亚迪20万辆一枝独秀 碾压特斯拉」
10月9日,乘联会公布2022年9月新能源乘用车厂商批发销量,预估9月销量66.4万辆,环比8月约增长5%,同比去年9月增长约90%。具体厂商方面,比亚迪以超过200973辆的销量一枝独秀,不仅是唯...
日期:10-24
哈佛大学研发出一种更平价和高效的空调方法「哈佛大学研发出一种更平价和高效的空调」
夏天的命都是空调给的。这句话正从梗变成现实。在今年的高温下,空调变得越来越必要,但同时,空调用得越多,既会加重用电电压力,而排出的热气也会让户外环境更热,制冷剂也会对环境...
日期:09-14
腾讯XR业务转向:或将合作引进Quest 2头显
本月稍早些时候,有消息称,腾讯XR业务线不同部门分批收到临时代管的GM(总经理)和HR的通知,公司宣布XR全线岗位取消。今天,根据36氪方面消息,腾讯并未完全放弃XR业务,而是从此前的软件...
日期:03-01
快充伤不伤电池?何同学用40部手机两年实验揭秘:随便用 随便充
昨晚,Redmi正式发布了Note 12探索版手机,首发了小米自研的210W快充技术,突破了目前量产手机的极限。按照官方公布的数据,该机能够在9分钟完全充满电池,首次将充电时间拉进个位数...
日期:10-29
扣扣群签到「腾讯QQ群签到今日正式停止运营」
11月30日 消息:今日,QQ群签到功能正式停止运营。该功能允许用户在加入的QQ群中每日签到,以增加自己在群内的声望,提升群等级,以及提升自己群头衔,连续签到还会给予奖励。华为不支...
日期:11-30
印度智能手机出货量下跌3%:小米要挑落三星成第一 vivo第三
快科技10月21日消息,对于印度市场来说,虽然有太多的不确定因素存在,但全球智能手机厂商依然在这里深耕。Canalys统计,2023年第三季度,印度智能手机出货量达到4300万部,同比下跌3%,...
日期:10-22
智谱AI推出第三代基座大模型ChatGLM3 智谱清言具备代码交互能力_智谱科技怎么样
10月27日 消息:智谱 AI 在2023中国计算机大会上发布了第三代基座大模型 ChatGLM3及相关系列产品。ChatGLM3经过深度优化,在中英文公开数据集测试中表现优秀,其中 MML 提升36、...
日期:10-28
华尔街对科技大盘股热情消退-瑞银下调Alphabet股票评级_华尔街 a股
北京时间6月27日早间消息,据报道,Alphabet股票评级周三被瑞银从“买入”下调至“中性”,受此影响,该股周三下跌3.3%。这再次表明华尔街分析师对科技大盘股的热情消退。大型科技...
日期:09-23
网络动态(网络动态静态是什么意思)
  12月17日消息 据重庆日报报道,昨日,达瓦未来(重庆)影像科技有限公司发布了实时数字人场景。在真人说话、做动作时,数字人可同时具有一模一样的动作和面部表情。这也是我国...
日期:04-19
谷歌7月份的搜索市场份额由6月份的65.5%下降到65.1%(谷歌发布的“2017年人们搜索些什么”为何能打动你?)
  北京时间8月11日消息,据国外媒体报道,据市场研究公司comScore称,在今年的前7个月里,必应雅虎的搜索市场份额有5个月是保持增长的,它们增长的市场份额有一半来自谷歌,另一半来...
日期:07-22