您的位置:首页 > 互联网

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

发布时间:2023-12-05 21:14:12  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

屹立不倒的 Transformer 迎来了一个强劲竞争者。

在别的领域,如果你想形容一个东西非常重要,你可能将其形容为撑起了某领域的半壁江山。但在 AI 大模型领域,Transformer 架构不能这么形容,因为它几乎撑起了整个江山。

自2017年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量可能会增长1000倍,计算效率非常低。

2019年9月现在入手什么显卡好

为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但这往往以牺牲其有效性特为代价。到目前为止,这些变体都还没有被证明能在不同领域发挥有效作用。

最近,一项名为Mamba的研究似乎打破了这一局面。

在这篇论文中,研究者提出了一种新的架构 ——选择性状态空间模型( selective state space model)。它在多个方面改进了先前的工作。

作者表示,Mamba在语言建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现5倍的推理吞吐量提升。

消息一出,人们纷纷点赞,有人表示已经迫不及待想要把它用在大模型上了。

作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美。

这篇论文的作者只有两位,一位是卡内基梅隆大学机器学习系助理教授 Albert Gu,另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授(即将上任)Tri Dao。

Albert Gu 表示,这项研究的一个重要创新是引入了一个名为选择性 SSM的架构,该架构是 Albert Gu 此前主导研发的 S4架构(Structured State Spaces for Sequence Modeling ,用于序列建模的结构化状态空间)的一个简单泛化,可以有选择地决定关注还是忽略传入的输入。一个小小的改变—— 让某些参数成为输入的函数,结果却非常有效。

值得一提的是,S4是一个非常成功的架构。此前,它成功地对 Long Range Arena (LRA) 中的长程依赖进行了建模,并成为首个在 Path-X 上获得高于平均性能的模型。更具体地说,S4是一类用于深度学习的序列模型,与 RNN、CNN 和经典的状态空间模型(State Space Model,SSM)广泛相关。SSM 是独立的序列转换,可被整合到端到端神经网络架构中( SSM 架构有时也称 SSNN,它与 SSM 层的关系就像 CNN 与线性卷积层的关系一样)。Mamba 论文也讨论了一些著名的 SSM 架构,比如 Linear attention、H3、Hyena、RetNet、RWKV,其中许多也将作为论文研究的基线。Mamba 的成功让 Albert Gu 对 SSM 的未来充满了信心。

Tri Dao 则是FlashAttention、Flash Attention v2、Flash-Decoding的作者。FlashAttention 是一种对注意力计算进行重新排序并利用经典技术(平铺、重新计算)加快速度并将内存使用从序列长度的二次减少到线性的算法。Flash Attention v2、Flash-Decoding 都是建立在 Flash Attention 基础上的后续工作,把大模型的长文本推理效率不断推向极限。在 Mamba 之前,Tri Dao 和 Albert Gu 也有过合作。

另外,这项研究的模型代码和预训练的检查点是开源的,参见以下链接:https://github.com/state-spaces/mamba.

论文链接:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf

方法创新

论文第3.1节介绍了如何利用合成任务的直觉来启发选择机制,第3.2节解释了如何将这一机制纳入状态空间模型。由此产生的时变 SSM 不能使用卷积,导致了高效计算的技术难题。研究者采用了一种硬件感知算法,利用当前硬件的内存层次结构来克服这一难题(第3.3节)。第3.4节描述了一个简单的 SSM 架构,不需要注意力,甚至不需要 MLP 块。第3.5节讨论了选择机制的一些其他特性。

选择机制

研究者发现了此前模型的一个关键局限:以依赖输入的方式高效选择数据的能力(即关注或忽略特定输入)。

序列建模的一个基本方法是将上下文压缩到更小的状态,我们可以从这个角度来看待当下流行的序列模型。例如,注意力既高效又低效,因为它根本没有明确压缩上下文。这一点可以从自回归推理需要明确存储整个上下文(即 KV 缓存)这一事实中看出,这直接导致了 Transformer 缓慢的线性时间推理和二次时间训练。

递归模型的效率很高,因为它们的状态是有限的,这意味着恒定时间推理和线性时间训练。然而,它们的高效性受限于这种状态对上下文的压缩程度。

为了理解这一原理,下图展示了两个合成任务的运行示例:

网站被ddos

研究者设计了一种简单的选择机制,根据输入对 SSM 参数进行参数化。这样,模型就能过滤掉无关信息,并无限期地记住相关信息。

将选择机制纳入模型的一种方法是让影响序列交互的参数(如 RNN 的递归动力学或 CNN 的卷积核)与输入相关。算法1和2展示了本文使用的主要选择机制。其主要区别在于,该方法只需将几个参数 ∆,B,C 设置为输入函数,并在整个过程中改变张量形状。这些参数现在都有一个长度维度 L ,意味着模型已经从时间不变变为时间可变。

硬件感知算法

上述变化对模型的计算提出了技术挑战。所有先前的 SSM 模型都必须是时间和输入不变的,这样才能提高计算效率。为此,研究者采用了一种硬件感知算法,通过扫描而不是卷积来计算模型,但不会将扩展状态具体化,以避免在 GPU 存储器层次结构的不同级别之间进行 IO 访问。由此产生的实现方法在理论上(与所有基于卷积的 SSM 的伪线性相比,在序列长度上呈线性缩放)和现有硬件上都比以前的方法更快(在 A100GPU 上可快达3倍)。

马斯克说特斯拉的竞争对手

架构

研究者将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块,从而简化了深度序列模型架构,形成了一种包含选择性状态空间的简单、同质的架构设计(Mamba)。

与结构化 SSM 一样,选择性 SSM 也是一种独立的序列变换,可以灵活地融入神经网络。H3架构是著名的同质化架构设计的基础,通常由线性注意力启发的块和 MLP(多层感知器)块交错组成。

研究者简化了这一架构,将这两个部分合二为一,均匀堆叠,如图3。他们受到门控注意力单元(GAU)的启发,该单元也对注意力做了类似的处理。

选择性 SSM 以及 Mamba 架构的扩展是完全递归模型,几个关键特性使其适合作为在序列上运行的通用基础模型的骨干:

  • 高质量:选择性为语言和基因组学等密集模型带来了强大的性能。

  • 快速训练和推理:在训练过程中,计算量和内存与序列长度成线性关系,而在推理过程中,由于不需要缓存以前的元素,自回归展开模型每一步只需要恒定的时间。

  • 长上下文:质量和效率共同提高了实际数据的性能,序列长度可达100万。

  • 实验评估

    实证验证了 Mamba 作为通用序列基础模型骨干的潜力,无论是在预训练质量还是特定领域的任务性能方面,Mamba 都能在多种类型的模态和环境中发挥作用:

    合成任务。在复制和感应头等重要的语言模型合成任务上,Mamba 不仅能轻松解决,而且能推断出无限长的解决方案(>100万 token)。

    音频和基因组学。在音频波形和 DNA 序列建模方面,Mamba 在预训练质量和下游指标方面都优于 SaShiMi、Hyena、Transformer 等先前的 SOTA 模型(例如,在具有挑战性的语音生成数据集上将 FID 降低了一半以上)。在这两种情况下,它的性能随着上下文长度的增加而提高,最高可达百万长度的序列。

    语言建模。Mamba 是首个线性时间序列模型,在预训练复杂度和下游评估方面都真正达到了 Transformer 质量的性能。通过多达1B 参数的缩放规律,研究者发现 Mamba 的性能超过了大量基线模型,包括 LLaMa 这种非常强大的现代 Transformer 训练配方。

    与类似规模的 Transformer 相比,Mamba 具有5倍的生成吞吐量,而且 Mamba-3B 的质量与两倍于其规模的 Transformer 相当(例如,与 Pythia-3B 相比,常识推理的平均值高出4分,甚至超过 Pythia-7B)。


    返回网站首页

    本文评论
    暗黑版GPT流窜暗网 降低犯罪门槛
    声明:本文来自于微信公众号 元宇宙日爆(ID:MBNews),作者:木沐,授权转载发布。随着AIGC应用的普及,不法分子利用AI技术犯罪的手段越来越高明,欺骗、敲诈、勒索也开始与人工智能沾边...
    日期:08-07
    极氪汽车 销量「上市整一年 极氪单月销量首次突破1万台:站稳30万级!」
    11月1日晚,极氪汽车发布了旗下首款车型001的上月销量,10月份,极氪001交付10119台,环比增长22.3%,值得注意的是,这是该车自去年10月份上市以来,首次月交付量过万,累计销量达到了55600...
    日期:11-03
    华为周跃峰:先进数据存力,做AI大模型时代领先者_华为周辉
    通信世界网消息(CWW)8月19日,在2023中国算力大会期间,由中国信息通信研究院和中国互联网协会联合主办的“先进数据存力”论坛在宁夏银川举办。论坛邀请产、学、研、用各界专家一...
    日期:08-21
    这个618,阿里腾讯又要“联手”了_腾讯阿里系图示
    声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:章航英,授权转载发布。临近618,一个特别的消息在电商圈流传。今年618期间,腾讯朋友圈商品广告能一键直跳淘宝站内。相比...
    日期:05-27
    中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上
    通信世界网消息(CWW)2021年,“开源”被首次写入国家“十四五”规划,开源凭借开放、协作、共享的特点,已成为全球软件开发和产业创新发展的主导协作模式,为信息技术高质量发展提供...
    日期:09-21
    中兴通讯亮相AI for Good全球峰会,践行AI向善_中兴通讯最新一期
    通信世界网消息(CWW)7月6日-7月7日,AI for Good全球峰会于瑞士日内瓦成功举办。本次峰会汇聚了全球各地的学术界、企业、联合国机构、非政府组织的人工智能专家,聚焦人工智能的...
    日期:07-18
    三星one ui怎么锁定应用程序「三星在的One UI 5.0测试版中复制了iOS 16的锁屏定制功能」
    iOS 16的最主要功能之一是锁屏定制功能。该功能与iPhone 14 Pro上的"灵动岛"相结合,为用户如何定制锁屏和创造真正属于自己的个性化内容提供了新的思路,从一开始推出就收到认...
    日期:09-30
    今年会出现罕见的寒冬吗?气象局权威回应「气象局今年冷冬」
    9月29日,中国气象局举行10月例行新闻发布会。其中就今年冬季气候预测怎么样?在拉尼娜现象的影响下,是否会出现罕见寒冬?”这一问题,官方答疑如下:今年冬季预测产品预计将在10月底...
    日期:10-01
    极光:2020年春节移动互联网行业热点观察_极光大数据:2018年Q2移动互联网行业数据研究报告
      极光 (Aurora Mobile,NASDAQ:JG)发布《2020年春节移动互联网行业热点观察研究报告》,洞察即时通讯、新闻资讯、手机游戏、短视频、教育学习、生鲜电商等热点行业的方方面...
    日期:07-05
    行业首款卫星通信5G手机!中兴Axon 50 Ultra吴京代言图公布:背部外观揭晓
    快科技4月12日消息,中兴此前已经宣布,将在今天下午举行中兴行业终端峰会,中兴Axon 50 Ultra旗舰手机也将正式亮相。官方还最新公布除了代言人吴京的手持宣传图,并清晰的展示了该...
    日期:04-12
    6个月亏掉5万亿!孙正义用一幅画开启自省_孙正义收拾烂摊子:花30亿让他走人
    见习记者/戚夜云   在软银集团财报发布会伊始,创始人兼CEO孙正义展出一幅与主题毫不相干的颦像。这是德川家康的自画像,在轻敌冒进吃了生平唯一的败仗(三方原合战)之后,命画师...
    日期:08-16
    Meta将与SK海力士和乐金显示合作开发MicroOLED
    2月14日消息,据外媒报道,Meta将与韩国芯片制造商SK海力士和液晶面板制造商乐金显示(LG Display)合作开发MicroOLED。据韩媒报道,MicroOLED面板具有更薄、更小的特点,同时具有超高...
    日期:02-15
    华为申请车辆定位方法、折叠式电子设备等多项专利
      天眼查知识产权信息显示,近日,华为技术有限公司新增了多项专利信息。   其中,专利类型为 “发明专利”的包括:秘钥访问控制方法和装置;车辆定位的方法、装置、控制器、智...
    日期:07-14
    长城举报比亚迪排放不达标 检测机构中汽研:集团后续统一回复「比亚迪举报电话多少」
    5月25日,向来暗斗不明争”的国产车圈,突然爆出了一件重磅事件。mate40pro官网价5g长城汽车以官方名义,举报比亚迪秦PLUS DM-i、宋PLUS DM-i采用常压油箱,涉嫌整车蒸发污染物排放...
    日期:05-26
    松下投影机诚挚邀请您参加 IAAPA亚洲博览会暨主题公园及游乐设备展
      6月11-14日,2019IAAPA亚洲博览会暨主题公园及游乐设备展将在中国上海的上海新国际博览中心举办,来自全球各地300多家公司的创意、概念和产品将在会上展出。松下系统工程...
    日期:11-15
    打工人没有手机自由「没有手机在家可以干什么」
    声明:本文来自于微信公众号 xxxxxx(ID:xxxxx),作者 | 李秋涵 王敏 王璐 邹帅 ,编辑 | 王璐,授权转载发布。作者 | 李秋涵 王敏 王璐 邹帅编辑 | 王璐手机对当代打工人有多重要?日...
    日期:06-12
    小红书单个笔记限流「小红书不同流量端口的笔记写作思维」
    声明:本文来自于微信公众号 麋鹿先生Sky(ID:milusir94),作者:麋鹿先生Sky,授权转载发布。最近,有个零克Club会员问了我一个挺有意思的问题,他说Sky老师,咱们都说过笔记要做干货,图片...
    日期:07-26
    PS5主机惨遭一键破解:自由安装三方程序「ps5破解系统」
    才上市两年的PS5主机,就这么破解了?ID显示为jose Gonzalez”分享了PS5主机破解的最新进展,从截图来看,只需点击主界面的Auto HEN”通知消息就能启用自制程序。智能手表续航能力...
    日期:10-11
    流光隽永,匠心百年 三得利世家庆祝100周年载誉传奇「三得利价格介绍」
    镌刻百年流光,致敬匠心传承。日本威士忌创始家族——三得利世家即将与中国烈酒爱好者庆祝 100 周年盛章,敬呈「此刻,三得利时刻」。为纪念世家百年成就与先锋精神,值此 100 周年...
    日期:06-09
    埃森哲合作的六大企业平台「埃森哲收购意大利人工智能咨询公司Ammagamma」
    **划重点:**surface最便宜多少钱荣耀3c畅玩版苹果发布了美股会大涨吗1. oppo a1系列发布会...
    日期:12-02