您的位置:首页 > 互联网

GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

发布时间:2024-08-28 17:08:27  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:桃子,授权转载发布。

LLM若想高速推理,现如今,连GPU都无法满足了?

曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。

运行Llama3.18B时,它能以1800token/s的速率吐出文字。

不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。

iphone图标太大了

如下图右所示,以往,微调版Llama3.18B推理速度为90token/s,清晰可见每行文字。

而现在,直接从90token/s跃升到1800token/s,相当于从拨号上网迈入了带宽时代。

左边Cerebras Inference下模型的推理速度,只能用瞬间、疯狂两字形容。

这是什么概念?

比起英伟达GPU,Cerebras Inference的推理速度快20倍,还要比专用Groq芯片还要快2.4倍。

另外,对于70B参数的Llama3.1,可达到450token/s及时响应。

值得一提的是,Cerebras并没有因为提高LLM的速度,而损失其精度。

测试中,使用的Llama3.1模型皆是采用了Meta原始16位权重,以便确保响应高精度。

最关键的是,价格还实惠。

根据官方API定价,Llama3.18B每百万token仅需10美分,Llama370B每百万token仅需60美分。

如此之高的性价比,更是打破了业界纪录——

不仅远超之前的保持者Groq,而且和其他平台相比,甚至是隔坐标轴相望了。

Artificial Analysis

正是因为Cerebras Inference背后,是由自研的第三代芯片Wafer Scale Engine助力,才得以1/5价格快速推理Llama3.1。

看到自家模型推理如此神速,LeCun、Pytorch之父纷纷动手转发起来。

还有网友看后表示,我想要!

推理很慢,英伟达GPU也不中用?

为什么LLM的响应,就像拨号上网加载网页一样,一个字一个字慢慢地吐出?

关键原因所在,大模型自身的顺序特性,以及需要大量的GPU内存和带宽。

由于GPU的内存带宽限制,如今推理速度为每秒几十个token,而不是数千个。

更进一步说,大模型每个生成的单词,都必须通过整个模型进行处理,即所有参数必须从内存投入到计算中。

而每生成一个单词,就需要一次处理,以此循环往复。

也就是,生成100个单词需要100次处理,因为下一词的预测,皆需要依赖前一个单词,而且这个过程无法并行。

那么,想要每秒生成100个单词,就需要所有模型参数,每秒投入计算100次。

由此,这对GPU内存带宽提出了高要求。

以社区流行的Llama3.1-70B模型为例。

模型有700亿参数,每个参数是16位,需要2字节的存储,那整个模型便需要140GB的内存。

想要模型输出一个token,那700亿参数必须从内存,移动到计算核心,以执行前向推理计算。

由于GPU只有约200MB的片上内存,模型无法存储在芯片。

因此,每次生成的token输出时,需将整个占用140GB内存的模型,完整传输到计算中。

再细算下来,为了实现10token/s,则需要10*140=1.4TB/s的内存带宽。

那么,一个H100有3.3TB/s的内存带宽,足以支持这种缓慢的推理。

而若要实现即时推理,需要达到1000token/s或140TB/s,这远远超过任何GPU服务器/系统内存带宽。

或许,你想到了一种暴力解决方案,将多个GPU串联搭建DGX系统。

这完全是大错特错,更多的处理器只会增加系统的吞吐量(给出更长响应),并不会加速单个查询的响应时间。

自研世界最大芯片,打破推理想象

那么,Cerebras如何打破这一困局呢?

一直以来,这家公司就致力于打造世界上最大芯片,希望将整个模型存储在一个晶片上,以此来解决内存带宽瓶颈。

凭借独特的晶圆设计,WSE-3单个芯片上便集成了44GB SRAM,具备21PB/s的内存带宽。

单个芯片拥有如此大内存,便消除了对外部内存的需求,以及将外部内存连接到计算的慢速通道。

总的来说,WSE-3的总内存带宽为21PB/s,是H100的7000倍。

两人股东有限公司章程

它是唯一一款同时具有PB级计算和PB级内存带宽的AI芯片,使其成为高速推理的近乎理想设计。

Cerebras推理不仅速度超快,而且吞吐量巨大。

与小型AI芯片相比,芯片上内存多了约200倍,支持从1-100的批大小,使其在大规模部署时,具有极高的成本效益。

正是有了如此强大的芯片,Cerebras Inference的快速推理得以实现。

它的出现,是为了实现数十亿到万亿参数模型的推理。

如果模型参数超过单个晶圆的内存容量时,研究人员将在层边界将其拆分,并映射到多个CS-3系统上。

20B模型适合单个CS-3,而70B模型则至少需要4个这样的系统。

官方表示,未来几周,将会测试更大参数版本的模型,比如Llama3-405B、Mistral Large。

16位精度,不做取舍

推理速率高,并非在模型权重上,做了取舍。

b550主板支持zen4吗

业界中,一些公司试图将模型权重精度,从16位减少到8位,来克服内存带宽的瓶颈。

这样方法,通常会造成模型精度损失,也就是响应结果的准确性、可靠性不如以前。

Cerebras Inference之所以强就强在了,速率和原始权重,皆要顾及。

正如开篇所述,他们采用了原始16位权重运行了Llama3.18B和70B。

通过评估,16位模型准确率比8位模型,高出多达5%。尤其是在,多轮对话、数学和推理任务中表现更好。

最优性价比,百万token免费送

目前,Cerebras Inference可通过聊天平台,以及API访问,任何一个人可随时体验。

体验传送门:https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

基于熟悉的OpenAI Chat Completions格式,开发者只需更换API密钥即可集成强大的推理功能。

Cerebras Inference API提供最佳的性能、速度、精度和成本组合。

它是唯一能即时运行Llama3.1-70B的方案,可实现450token/s,同样使用的是原始16位模型权重。

在此,Cerebras送上大福利,每天为开发者们提供100万个免费token。对于大规模部署,其定价只是H100云的一小部分。

首次推出时,Cerebras提供了Llama3.18B和70B模型,而且有能力每天为开发者和企业,提供数千亿token。

接下来几周,他们将增加对更大模型的支持,如Llama3405B、Mistral Large2。

有开发者问道,你们提供的rpm(每分钟请求次数)和tpm(每分钟处理token数)是多少?

Cerebras提供了一张针对Llama3.18B和70B模型完整的请求/token处理数的图。

快速推理,不只为速度

最后,让我们来聊聊,为什么快速推理非常重要?

通常,LLM会即刻输出自己的全部想法,而不考虑最佳答案。而诸如scaffolding(脚手架)这类的新技术,则如同一个深思熟虑的智能体,会在作出决定前探索不同的可能解决方案。

这种先思考后发言的方式在代码生成等严苛任务中,可以带来超过10倍的性能提升,从根本上提升了AI模型的智能,且无需额外训练。

但这些技术在运行时,需要多达100倍的token。

因此可见,如果我们能大幅缩短处理时间,那么就可以实现更为复杂的AI工作流程,进而实时增强LLM的智能。

速度爆表,但上下文只有8K

虽然在价格和延迟上,Cerebras都不是最低的。

但极致的速度,确实为Cerebras带来了极致的速度-价格和速度-延迟比。

不过,值得注意的是,在Cerebras上跑的Llama3.1,上下文只有8k……

相比之下,其他平台都是128K。

具体数据如下:

Llama3.170B

Llama3.18B


返回网站首页

本文评论
危机中这些企业逆势上扬,它们的经验可圈可点_摆脱企业危机
  对于大多数企业来说,还没有走出疫情的阴霾,又有了全球经济振荡的担忧……对于中小企业来讲,复工复产困难、现金流压力、产业链难以协同的局面依然存在。企业能够在危机期...
日期:11-07
高铁桌子承重多少「有女乘客赤脚搁上边 高铁小桌板承重多少斤?官方科普」
近日,河南一名女乘客在车厢内脱鞋后,赤脚放上桌板上,引发网友讨论。12306客服回应:这属于乘客的个人不文明行为,只能找工作人员协调解决,如该乘客不听劝阻还可寻求乘警帮助。那么...
日期:08-26
引领智慧办公新潮流,华为携企业智慧屏抢占会议平板市场(华为举行智慧办公新品发布会)
  上班族最崩溃的几个瞬间,开会时设备花式掉链子绝对算一个。   在钛媒体一周一度的编辑会上,小编就遭遇了投影仪半个小时也连不上电脑的尴尬场面,最后只得放弃,而原本能在...
日期:07-14
redmi10上市「Redmi平板马上发布 和Redmi Note 12一起亮相」
中关村在线消息:10月4日,Redmi首款平板Redmi Pad在国外市场正式发布,一起发布的还有小米12T系列。作为首款平板,依旧走了Redmi的入门性价比路线,Redmi Pad 在印度市场提供 3GB+64...
日期:10-28
网红手持小风扇风行 苏宁大数据:销量同比增长131%
  进入7月,全国多地连日高温,中国气象局公布显示,未来十天,华北黄淮局部地区更是达40℃,这也预示着“盛夏”模式正式开启。因此,消暑纳凉自然成为公众的最大需求,各类“消暑家电...
日期:11-01
三星苹果巨头不爽!印度禁止进口笔记本/平板后 尴尬改口称推迟实施
快科技8月5日消息,由于种种原因,印度推迟实施笔记本电脑进口限制措施。win102021年更新版本印度8月4日对其突然实施的笔记本电脑和平板电脑进口限制令进行了修改,给予企业三个...
日期:08-05
「京东3C数码在草莓音乐节现场吸粉无数 「乐迷扎堆体验潮玩音频装备」」
来源:中关村在线上海迪士尼暂时性关闭什么时候开放更新完ios14微信出bug9月16日-17日,令无数乐迷翘首以盼的草莓音乐节第三次来到珠海,带来了连续两天的精彩浪漫的视听盛宴,让各...
日期:09-18
chatpic怎么打开「ChatGPT重磅升级:可以看图、听声音、说话啦!」
声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。京东方去年营收美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声...
日期:09-26
溯源海外好物,抖音电商金产地海外计划 x 抖音电商全球购美国首站收官
Movefree/益节氨糖软骨素、COACH背包、OLLY复合维生素软糖……随着全球化进程的推进,越来越多的海外好物进入千家万户,满足用户对品质生活的追求。受用户消费行为变化影响,抖音...
日期:04-02
移远通信首批加入“5G+eSIM计算终端产业合作计划”,助力大屏移动终端全时在线
通信世界网消息(CWW)7月29日,在全球数字娱乐产业盛会 ChinaJoy上,中国联通携手高通公司、GSMA发布了“5G+eSIM 计算终端产业合作计划”。作为全球领先的物联网整体解决方案供应...
日期:08-01
小米汽车月薪一万招普工「小米新增多个汽车销售相关岗位 主管月薪最低1.5万元」
快科技11月15日消息,今天下午,小米汽车首车SU7正式亮相,据多家媒体报道称,通过查找多个招聘软件平台发现,小米新增了多个汽车销售相关岗位。最新款乐视手机小米180w充电器小米在...
日期:11-16
薇娅公司发布AI数字人直播业务 直播成本降至数千元_薇娅直播间几千万人是真的吗
8月9日 消息:谦寻(杭州)控股有限责任公司旗下子公司谦语智能和羚客分别发布了最新的人工智能应用成果 ——AI 数字人直播业务和一站式 AI 智能直播综合平台。暴雪守望先锋买一...
日期:08-09
eBay宣布将裁员500人 约占员工总数4%左右「全球裁员原因」
2月8日消息,据外媒报道,当地时间周二, eBay宣布将裁员500人,约占其员工总数的4%。据悉,在给员工的一份备忘录中,其首席执行官杰米·伊安内表示,公司在对过去几个月全球宏观经济环境...
日期:02-10
我测了12个小时的RunwayGen3,发现这就是AI视频的No.1_runway app下载
声明:本文来自于微信公众号 数字生命卡兹克(ID:Rockhazix),作者:数字生命卡兹克,授权转载发布。昨天,众多AI视频创作者翘首以盼的Runway的Gen3,终于面向部分超级合作者开放了。我...
日期:07-01
中国联通:与腾讯新设合营企业主要从事CDN和边缘计算业务
11月2日消息,中国联通发布公告称,下属子公司联通创新创业投资 有限公司与深圳市腾讯产业创投有限公司新设合营企业主要从事内容分发网络(CDN)和边缘计算业务, 立足于自主研发,形成...
日期:11-04
华为Pura 70/Pro 今日开售:5499元起!_2020华为p70
快科技4月22日消息,据华为官方介绍,华为Pura 70、Pura 70 Pro 两款机型将在今天上午10:08正式开售,起售价5499元。届时,华为Pura 70系列四款机型全部上市。华为Pura 70 Pro 与Pr...
日期:04-22
张颂文高叶再现《狂飙》拥抱 网友:是剧中“大哥大嫂”的感觉
4月22日消息,剧集《狂飙》的热度从开年一直延续到现在。iphone 14或支持spacex卫星剧中的扮演高启强”的张颂文和扮演陈书婷”的高叶,也成了大家口中大器晚成的优秀演员。英伟...
日期:04-22
网络骂人构成犯罪吗「谁火骂谁!男子网上骂人博流量构成侮辱罪:被判8个月」
快科技6月22日消息,近些年来大批网红兴起,很多人实现了一夜暴富”,这就让更多的人眼红不易,想要切入,使得原本就拥挤不堪的赛道更加拥挤,于是为了爆火,有些人就采取了一些极端的方...
日期:06-22
国际半导体产业协会预估台积电、英特尔年内建成2nm晶圆厂_台积电代工英特尔芯片
3 月 28 日消息,国际半导体产业协会(SEMI)近日发布产业链报告,认为芯片巨头台积电和英特尔有望在今年年底之前建成 2 纳米晶圆厂。援引 SEMI 报告,该机构预估台积电 8 英寸晶圆的...
日期:03-28
猿星球CEO梁教练谈元宇宙百家争鸣是发展的土壤
元宇宙到底是什么?联想z5新国民旗舰网上搜索元宇宙,众说纷纭,什么解释都有,虚拟现实的互通、移动互联网的升级、人类未来的家园。也许都对,但猿星球创始人/CEO梁教练认为,元宇宙就...
日期:09-18