您的位置:首页 > 互联网

首个基于SSM-Transformer混合架构,开源商业大模型Jamba_基于ssm框架的

发布时间:2024-03-29 09:48:15  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

3月29日,知名AI研究实验室AI21在官网开源了,首个基于SSM-Transformer混合架构的商业大模型——Jamba。

目前,ChatGPT、Stable Difusion 、Lyria等产品使用的皆是Transformer架构,虽然在捕捉序列内长距离依赖关系、泛化能力、特征提取等方面非常优秀,但在处理长序列、训练大参数模型时存在AI算力消耗大、过拟合、内存占用大等缺点。

Jamba则是在传统的Transformer架构之上,加入了结构化状态空间模型 (SSM) 技术,结合二者的优点来极大提升其性能。例如,Jamba的吞吐量是同类知名开源模型Mixtral8x7B的3倍;也是同类模型中极少数能在单个GPU上容纳高达140K上下文的模型。

这也就是说,那些没有庞大GPU集群的小企业和个人开发者,通过Jamba也能开发出高性能、低消耗的生成式AI产品。

huggingface地址:https://huggingface.co/ai21labs/Jamba-v0.1

也可通过英伟达平台使用:https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

Jamba架构简单介绍

Jamba加入的SSM技术是借鉴了2023年12月1日,由卡内基梅隆大学Albert Gu和普林斯顿大学Tri Dao提出的论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。

论文地址:https://arxiv.org/abs/2312.00752

Mamba的核心技术是使用“选择性状态空间”来进行序列推理,我们可以把状态空间看作是一个库房。

在建模过程中,Mamba可以根据用户输入的具体情况,有选择性地去库房里拿东西或者忽略,这种灵活性使得它能够更好地处理离散型数据。

例如,Mamba可以根据当前的文本输入数据,有选择地过滤掉不相关的信息,并且能够长时间地记住与当前任务相关的信息。

与传统的序列模型不同的是,Mamba不需要使用复杂的自注意力机制或者MLP块(多层感知器)。主要通过选择性状态空间和MLP块的协同工作,实现了高效的推理过程,并且在处理长序列数据时非常高效,可以轻松处理100万tokens数据。

但引入选择性机制后,状态空间模型不再满足时间不变性,所以,无法直接用高效的卷积来计算,Mamba设计了一种“硬件并行算法”。

互联网轻量级ssm框架解密

该扫描算法使用了GPU并行加速,充分利用了GPU内存层次结构,控制状态张量的具体化过程,只在更高带宽的内存层(如SMX寄存器)上暂存状态,避免了低效的全局内存访问。这使得模型可以更好地利用GPU效率,不会出现浪费的情况。

Jamba则在Mamba的基础之上进行了创新,采用了分块分层的方法成功融合了SSM和Transformer架构:每个Jamba 模块都包含一个注意力层或一个 Mamba 层,然后是一个多层感知器,总体比例为每八个层中有一个 Transformer 层。

这样可以在保持模型推理性能的前提下,极大的降低了AI算力同时提升吞吐量。例如,与同类的开源模型Mixtral8x7B相比,Jamba的吞吐量是其3倍。

此外,Jamba还是一个专家混合模型(MoE),520亿参数中的120亿参数长期处于激活状态,并对所有MoE层的专家进行了大幅度优化,减轻了推理时内存占用大的问题。

AI21介绍

公开资料显示,AI21Labs创立于2017年,总部位于特拉维夫和纽约。由Yoav Shoham、Ori Goshen和Amnon Shashua三人联合创立。其中Yoav是一位连续创业者,曾将两家企业出售给谷歌并担任斯坦福大学名誉教授;

Ori是希伯来大学的副教授,曾参与多个NLP项目并发表了几十篇学术论文;Amnon是希伯来大学的教授,同时是知名自动驾驶公司Mobileye的联合创始人兼CEO。

仅2023年,AI21一共融资了2.08亿美元,目前总融资额度3.26亿美元。

产品方面,AI21Labs在2023年3月推出了大语言模型Jurassic-2,包含Large、Grande和Jumbo三种模型。

苹果se2为什么缺货

Jurassic-2除了在文本生成、API延迟、语言支持等全面增强之外,还开放了指令微调、数据微调,帮助企业、个人开发者打造量身定制的ChatGPT助手。

三星a60深度评测

Jurassic-2特定微调的类型共包括语义搜索,了解查询的意图和上下文含义,并从文档中检索相关的文本片段;上下文问答,仅根据特定上下文提供答案,也可以从文档库中自动检索等。

目前,耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使用AI21的大模型产品。


返回网站首页

本文评论
行走的超级大平板!移动智慧屏火了:线上年销量冲击15万台_智慧屏和平板的区别
快科技12月4日消息,你有没有听说过移动智慧屏”这个品类?这是一种屏幕尺寸在18-32英寸,搭配专门支架,运行智能操作系统,同时支持触控功能,可续航、可移动的终端设备,用一个词来形容...
日期:12-04
搜狗分身技术再突破,首个明星“数字人”柳岩上岗
  5月17日,在北京举办的“搜狐科技5G & AI峰会”上,由搜狗联合搜狐新闻客户端倾力打造的演员柳岩同款明星“数字人”惊艳亮相。目前,该明星“数字人”已经在搜狐新闻客户端...
日期:07-13
立讯精密发公告澄清「苹果砍单」传闻:目前与现有客户合作均正常开展
1月5日消息:立讯精密发布澄清公告称,公司近日关注到有台湾地区媒体报道「苹果公司要求供应商减产,立讯精密受创最大」一事。为了避免媒体报道对投资者产生误导,现予以澄清说明...
日期:01-05
全栈创新,张宇昕解读华为云“数字基础设施134”
  在全球变局涌动的2020年,政府和企业的服务和能力正加速向数字化、在线化、智能化转变,这让我们不仅看到技术在加速为产业创造新价值,也让我们看到技术正在重塑许许多多的...
日期:07-14
新氧科技第二季度营收3.09亿元 同比下滑31.6%_新氧科技第二季度营收3.09亿元 同比下滑31.6倍
  讯 北京时间8月16日晚间消息,医美O2O平台新氧科技(Nasdaq: SY)今日发布了截至6月30日的2022年第二季度财报。财报显示,新氧科技第二季度总营收为3.091亿元(约合4610万美元),与...
日期:10-15
4499元比飞机本体都贵:大疆DJI Goggles 2飞行眼镜独立开售
今年早些时候,大疆发布了DJI Avata无人机,并同步发售了更为轻便,配置也更加出色的飞行眼镜DJI Goggles 2。现在,DJI Goggles 2飞行眼镜终于独立开售,售价为4499元,比DJI Avata本体...
日期:11-29
Flash Player不断优化升级  国内稳定运行中_flash是否停止更新了
在过去的几十年中,Flash Player 一直是互联网内容创作的核心组件之一。它的灵活性和可定制性使得它成为许多网站和应用程序的首选工具。随着时间的推移,也出现了不少Flash Pla...
日期:07-28
广东联通荣获2023年度最佳算力数字化创新产品_联通数字科技
通信世界网消息(CWW)2023年,5G应用如火如荼,人工智能千帆竞发,数字经济蓬勃向前,作为ICT产业的推动者和见证者,通信世界全媒体于2023年12月28日正式发布2023 ICT年度企业及优秀解决...
日期:12-30
HTC:正评估Android 4.0新功能 拟升级计划_htc u11更新安卓9.0使用感受
  对于今天谷歌开发的新版Android 4.0操作系统,HTC表示他们正在评估该系统的新功能,之后再决定其升级计划。谷歌今天在香港正式发布了代号为了“冰激凌三明治”的新一代And...
日期:07-24
研究称 ChatGPT 等生成式人工智能技术对教育工作的影响更大
4月3日消息:据 CNBC 报道,一项最新研究表明,生成式人工智能技术(如 ChatGPT)对教育工作的影响更大,因此教育工作者需要更快适应这一趋势。一项职业分析研究发现,在受到大型语言模...
日期:04-03
华为提供5倍以上薪酬再招“天才少年”
【】5月20日消息,华为招聘微信公众号发布公告称,华为面向全球招募“天才少年”。小米10t k30对于“天才少年”:·不限学历、不限学校。·在数学、物理、化学、材料、计算机、智...
日期:09-27
实锤!iPhone 15机型电池循环充放电次数提升_ios15电池续航
苹果公司今日宣布,对所有iPhone 15机型的电池进行了重新测试,并确认其能够达到更高的标准。根据苹果公司的说法,在特定条件下对电池进行1,000次充放电循环后,iPhone 15、iPhone...
日期:02-21
华为笔记本硬盘多少钱一个「新服务上线!华为电脑硬盘升级来了:1TB SSD 999元」
快科技7月7日消息,电脑想要更大存储容量,却还想继续用不想换?别急,华为全新服务上线了。苹果自带原装type-c数据线有多长华为新品发布会mate50日前,华为终端客户服务官方宣布,华为...
日期:07-07
微软指责金山Office缺乏竞争力 建言金山早日退出(金山office与微软office关系)
  “我建议国内其他 Office厂商不要做了, 如果坚持继续要做,就得像微 软一样来创新自己的产品。”6月18日, 微软最新一代的办公软件Office2010正式对外发布,作为微软大中华区...
日期:07-30
高瓴搞了个种子投资的“世俗标准”_高瓴资本投资案例ppt
  文/张楠  赶在假期前,高瓴搞了个大新闻,官宣杀入种子轮,推出“Aseed+”种子计划,原话是“单独设立种子投资序列”,负责人是高瓴创始合伙人李良——之前带着120人团队下场、...
日期:09-29
马斯克推特消息「马斯克称还不知道推特CEO是谁」
10 月 31 日讯:特斯拉CEO马斯克表示,目前还没确认推特CEO是谁。三星s22系列仅只有骁龙8一个版本移动运营商在移动支付产业链中的作用...
日期:11-07
狂飙5.8千兆!老爷机也能享受Wi-Fi 7
技嘉发布了一款内置Wi-Fi 7无线模块的PCIe扩展卡GC-WIFI7”,可以让任何新老机器跟上最新无线时代。它支持2.4/5/6GHz三频段、320MHz频宽、MLO、MRU、4096-QAM、MU-MIMO TX/RX...
日期:12-13
丫丫多久回国「归来仍是“顶流”!中国网友花式欢迎“丫丫”回家」
当地时间4月26日8时45分左右,中国大熊猫丫丫”从田纳西州孟菲斯动物园出发前往机场,乘坐国际货运公司专机,在当天中午左右起飞,飞往上海,于今天下午到达上海浦东国际机场。为了迎...
日期:04-28
华为张平安:盘古大模型不写诗 只做事
凤凰网科技讯 7月7日消息,2023华为云开发者今日召开。华为常务董事、华为云CEO 张平安发表主题为《AI重塑千行百业》的开场演讲。张平安表示,上半年中国发布了80多个大模型产...
日期:07-08
杭州移动联合华为打造“云WiFi+专线卫士”智慧网点 助力金融品质办公
通信世界网消息(CWW)近日,中国移动有限公司杭州分公司(以下简称“杭州移动”)携手华为顺利完成金融网点云WiFi+专线卫士方案的商用部署,实现金融网点Wi-Fi升级改造。云WiFi的智能...
日期:06-09