您的位置:首页 > 互联网

比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍

发布时间:2024-02-20 16:53:19  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火,能够每秒输出近500个token。如此神速的响应,背后全凭自研的LPU。

一觉醒来,每秒能输出500个token的Groq模型刷屏全网。

堪称是世界上速度最快的LLM!

iqoo neo6评测全能的性能旗舰

相比之下,ChatGPT-3.5每秒生成速度仅为40个token。

有网友将其与GPT-4、Gemini对标,看看它们完成一个简单代码调试问题所需的时间。

没想到,Groq完全碾压两者,在输出速度上比Gemini快10倍,比GPT-4快18倍。(不过就答案质量来说,Gemini更好。)

,时长01:23

最关键的是,任何人可以免费用!

进入Groq主页,目前有两种可以自选的模型:Mixtral8x7B-32k,Llama270B-4k。

地址:https://groq.com/

比亚迪车型销量排行

与此同时,Groq API也向开发者提供,完全兼容OpenAI API。

Mixtral8x7B SMoE可以达到480token/S,100万token价格为0.27美元。极限情况下,用Llama27B甚至能实现750token/S。

目前,他们还提供100万token的免费试用。

Groq突然爆火,背后最大的功臣不是GPU,而是自研的LPU——语言处理单元。

单卡仅有230MB内存,2万美元一张。在LLM任务上,LPU比英伟达的GPU性能快10倍。

在前段时间的基准测试中,Groq LPU推理引擎上运行的Llama270B直接刷榜,而且比顶级云提供商快18倍的LLM推理性能。

网友大波演示

Groq火箭般的生成速度,让许多人为之震惊。

网友们纷纷放出的自己做的demo。

在不到一秒钟的时间里,生成几百词的、带有引用的事实性回答。

实际上,搜索占据了超过四分之三的处理时间,而非内容的生成!

针对创建一个简单的健身计划同一提示,Groq与ChatGPT并排响应,速度差异。

面对300多个单词的巨型prompt,Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划!

Groq完全实现了远程实时的AI对话。在GroqInc硬件上运行Llama70B,然后在提供给Whisper,几乎没有延迟。

,时长02:05

GPU不存在了?

Groq模型之所以能够以惊人速度响应,是因为背后公司Groq(同名)开发了独特的硬件——LPU。

并非是,传统的GPU。

简而言之,Groq自研的是一种名为张量流处理器(TSP)的新型处理单元,并将其定义为语言处理单元,即LPU。

它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为AI计算提供稳定的性能。

论文地址:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf

具体来说,LPU的工作原理与GPU截然不同。

它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。

这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。

这种设计使得每个时钟周期(every clock cycle)都能被有效利用,从而保证了稳定的延迟和吞吐量。

在能效方面,LPU也显示出其优势。通过减少多线程管理的开销和避免核心资源的未充分利用,LPU能够实现更高的每瓦特计算性能。

目前,Groq可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎进行ML训练。

甚至有网友表示,Groq的LPU在处理请求和响应方面,速度超越了英伟达的GPU。

不同于英伟达GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。

它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

鉴于AI的推理计算,相较于模型训练需要的数据量远小,Groq的LPU因此更节能。

在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。

LPU并不像GPU那样对存储速度有极高要求。

如果在AI处理场景中采用Groq的LPU,可能就无需为英伟达GPU配置特殊的存储解决方案。

Groq的创新芯片设计实现了多个TSP的无缝链接,避免了GPU集群中常见的瓶颈问题,极大地提高了可扩展性。

这意味着随着更多LPU的加入,性能可以实现线性扩展,简化了大规模AI模型的硬件需求,使开发者能够更容易地扩展应用,而无需重构系统。

Groq公司宣称,其技术能够通过其强大的芯片和软件,在推理任务中取代GPU的角色。

网友做的具体规格对比图。

这一切意味着什么?

对开发者来说,这意味着性能可以被精确预测并优化,这一点对于实时AI应用至关重要。

对于未来AI应用的服务而言,LPU可能会带来与GPU相比巨大的性能提升!

考虑到A100和H100如此紧缺,对于那些初创公司拥有这样的高性能替代硬件,无疑是一个巨大的优势。

目前,OpenAI正在向全球政府和投资者寻求7万亿美元的资金,以开发自己的芯片,解决扩展其产品时遇到算力不足的问题。

meta发布vr 头显

2倍吞吐量,响应速度仅0.8秒

前段时间,在ArtifialAnalysis.ai的LLM基准测试中,Groq的方案击败了8个关键性能指标。

其中包括在延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异。

在右下角的绿色象限中,Groq取得最优的成绩。

来源:ArtifialAnalysis.ai

Llama270B在Groq LPU推理引擎上效果最为出色,达到了每秒241个token的吞吐量,是其他大厂的2倍还要多。

总响应时间

Groq的响应时间也是最少的,接收100个token后输出只有0.8秒。

另外,Groq已经运行了几个内部基准,可以达到每秒300个token,再次设定了全新的速度标准。

Groq首席执行官Jonathan Ross曾表示,Groq的存在是为了消除富人和穷人,并帮助人工智能社区中的每个人发展。而推理是实现这一目标的关键,因为『速度』是将开发人员的想法转化为商业解决方案和改变生APP的关键。

一块卡2万刀,内存230MB

想必大家在前面已经注意到了,一张LPU卡仅有230MB的内存。

而且,售价为2万+美元。

根据The Next Platform的报道,在以上的测试中,Groq实际上使用了576个GroqChip,才实现了对Llama270B的推理。

通常来说,GroqRack配备有9个节点,其中8个节点负责计算任务,剩下1个节点作为备用。但这次,9个节点全部被用于计算工作。

对此网友表示,Groq LPU面临的一个关键问题是,它们完全不配备高带宽存储器(HBM),而是仅配备了一小块(230MiB)的超高速静态随机存取存储器(SRAM),这种SRAM的速度比HBM3快20倍。

这意味着,为了支持运行单个AI模型,你需要配置大约256个LPU,相当于4个满载的服务器机架。每个机架可以容纳8个LPU单元,每个单元中又包含8个LPU。

相比之下,你只需要一个H200(相当于1/4个服务器机架的密度)就可以相当有效地运行这些模型。

这种配置如果用于只需运行一个模型且有大量用户的场景下可能表现良好。但是,一旦需要同时运行多个模型,特别是需要进行大量的模型微调或使用高级别的LoRA等操作时,这种配置就不再适用。

此外,对于需要在本地部署的情况,Groq LPU的这一配置优势也不明显,因为其主要优势在于能够集中多个用户使用同一个模型。

另有网友表示,Groq LPU似乎没有任何HBM,而且每个芯片基本上都带有少量的SRAM?也就是说他们需要大约256个芯片来运行Llama70B?

没想到得到了官方回应:是的,我们的LLM在数百个芯片上运行。

还有人对LPU的卡的价钱提出了异议,这难道不会让你的产品比H100贵得离谱吗?

马斯克Grok,同音不同字

前段时间,Groq曾公开基准测试结果后,已经引来了一大波关注。

而这次,Groq这个最新的AI模型,凭借其快速响应和可能取代GPU的新技术,又一次在社交媒体上掀起了风暴。

不过,Groq背后的公司并非大模型时代后的新星。

它成立于2016年,并直接注册了Groq这一名字。

CEO兼联合创始人Jonathan Ross在创立Groq之前,曾是谷歌的员工。

曾在一个20%的项目中,设计并实现了第一代TPU芯片的核心元素,这就是后来的谷歌张量处理单元(TPU)。

随后,Ross加入了谷歌X实验室的快速评估团队(著名的登月工厂项目初始阶段),为谷歌母公司Alphabet设计和孵化新的Bets(单元)。

或许大多数人对马斯克Grok,还有Groq模型的名字感到迷惑。

其实,在劝退马斯克使用这个名字时,还有个小插曲。

去年11月,当马斯克的同名AI模型Grok(拼写有所不同)开始受到关注时,Groq的开发团队发表了一篇博客,幽默地请马斯克另选一个名字:

我们明白你为什么会喜欢我们的名字。你对快速的事物(如火箭、超级高铁、单字母公司名称)情有独钟,而我们的Groq LPU推理引擎正是运行LLM和其他生成式AI应用的最快方式。但我们还是得请你赶紧换个名字。

不过,马斯克并未对两个模型名称的相似之处作出回应。

参考资料:

https://x.com/JayScambler/status/1759372542530261154?s=20

https://x.com/gabor/status/1759662691688587706?s=20

https://x.com/GroqInc/status/1759622931057934404?s=20

华硕天选主机怎么样


返回网站首页

本文评论
华为生产手机,也绕不开小米、OPPO、中兴通讯的专利
华为的研发投入金额很高,专利数很多,这应该没人反对。华为也通过海量的专利构成专利矩阵,保障了自身权利。但我们也应该看到,不仅华为有专利,OPPO、中兴通讯、小米等也都很重视研...
日期:09-17
中国联通总经理投诉热线「联通好服务 用心为客户——陕西联通投诉处理专员罗晓萍」
联通好服务 用心为客户——陕西联通投诉处理专员罗晓萍 通信产业网|2023-07-25 10:05:25作者:通文来源:通信产业网【通信产业网讯】联通好服务,用心为客户,陕西联通投诉处理专员...
日期:07-25
金山淘宝联手整治网购欺诈三大独到措施专杀网购木马
  4月25日消息,金山网络宣布与淘宝网达成战略合作,双方共同联手整治网络购物欺诈。据悉,金山毒霸特别针对本次合作推出整治网购木马、钓鱼网址的三大独到措施,对木马作者所采...
日期:07-27
满帮二季度营收16.7亿元,同比增长49.3%「满帮集团年报」
8月26日消息,昨日满帮集团发布2022年第二季度财报,报告期内实现营收16.7亿元,同比增长49.3%。净利润为1270万元,2021年同期净亏损19.582亿元;Non-GAAP净利润2.7亿元,同比增长168.1...
日期:08-27
陌陌签约主播在抖音直播被索赔千万违约金:一审判赔300万「陌陌主播跳槽抖音」
10月8日消息,据澎湃新闻报道,中国裁判文书网公布的判决书显示,2019年10月17日,原告天津合尔公司(陌陌科技全资子公司)与被告秦某某签订了《王牌主播直播协议》。约定甲方系乙方直...
日期:10-12
东营港2021年重点项目「东营港建成全国首个“5G+”智慧化工园区」
通信世界网消息(CWW)在数字孪生系统中,随机点开一个罐体,通过安装的DCS系统,就可以实时看到它的存储介质以及实际液位显示。这仅是东营港经济开发区智慧化工园区项目中控室智慧大...
日期:08-04
李想发长文谈驱动力:问界曾把理想ONE打残,团队要成长「ceo李想」
凤凰网科技讯 6月14日消息,13日晚,理想汽车CEO李想在社交平台分享了他对理想汽车驱动力的最新感悟,表示成长是理想的驱动力。其中,他还谈到一个细节,“2022年三季度,问界M7的发布...
日期:06-14
百度公司李彦宏「百度CEO李彦宏:文心一言英文理解能力不如中文」
3月16日 消息:3月16日消息,备受瞩目的百度大语言模型产品文心一言今日正式发布,百度创始人、董事长兼首席执行官李彦宏、百度首席技术官王海峰出席。李彦宏表示文心一言除了能...
日期:03-16
阿里巴巴回购雅虎股权_雅虎或将出售亚洲资产 并将资金派息或回购股票
  北京时间10月29日凌晨消息,据彭博社报道,五位知情人士透露,雅虎将倾向于出售其在亚洲的资产,然后将获得的资金分配给股东,而不是将自己整体出售给买家集团。   消息人士称...
日期:07-24
微信 App 测试朋友圈“修改可见范围”「微信设置朋友圈可见范围」
IT之家 8 月 24 日消息,微信 iOS 平台迎来了 8.0.27 正式版更新。苹果 App Store 显示,微信 iOS 版 8.0.27 正式版解决了一些已知问题,但并未公布具体更新内容。mophie二合一无...
日期:09-14
vivo y50售价_vivo Y50正式开售:骁龙665+5000mAh电池
  4月25日,vivo正式发布Y系列全新产品 vivo Y50。vivo Y50搭载高通骁龙665处理器,配备5000mAh电池与后置四摄。   vivo Y50搭载高通骁龙665处理器,配备最高8GB LPDDR4X内...
日期:12-12
暴雪突然“分手” 网易发话了!非常遗憾 坚持到最后一刻「暴雪彻底凉了」
暴雪今日意外放出重磅消息,与网易的授权协议在明年1月24日0点到期后将会终止。届时,所有《魔兽世界》、《魔兽争霸III:重制版》、《星际争霸》系列,《炉石传说》、《风暴英雄》...
日期:11-18
冯提莫2021「冯提莫患甲状腺癌 它到底是什么病?全球公认增速最快的癌」
快科技7月25日消息,今天主播冯提莫甲状腺癌晚期的消息引起网友关注。冯提莫日在一档节目中透露,之前得了甲状腺癌晚期,停播了半年,目前已手术,现在身体也恢复了,嗓子也恢复差不多...
日期:07-25
高通下一代智能PC计算平台将采用全新命名体系——骁龙X系列_高通2021下半年cpu发布计划
通信世界网消息(CWW)高通技术公司自推出骁龙8cx计算平台以来,持续驱动消费级PC和商用PC的体验,不断突破创新边界。我们推出了全球首款商用5G PC平台,引领计算平台连接方式的发展;...
日期:10-15
哪些中小商家会被淘宝重点扶持呢「哪些中小商家会被淘宝重点扶持?」
声明:本文来自于微信公众号 亿邦动力(ID:iebrun),作者:石航千,授权转载发布。中小商家真的有机会成为 “主角”?日前,淘天集团中小企业发展中心与淘宝教育共同发起了面向中小商家...
日期:07-24
中国将第一次防御小行星:几千万公里外撞击_小行星撞击地球,中国方案
10月22日,在安徽合肥召开的中国科协年会主论坛上,中国探月工程总设计师、深空探测实验室主任兼首席科学家、中国工程院院士吴伟仁介绍了中国深空探测未来15年的计划。吴院士透...
日期:10-22
微软将修复15个Windows和Office漏洞(windows系统漏洞需要修复吗)
  据国外媒体报道,近日,微软宣布,该公司下周将发布5个安全更新,修复Windows、Excel、SharePoint Server和Groove中的15个漏洞。   据悉,微软下周发布的5个更新的安全评级均...
日期:07-22
微信键盘APP上线;支付宝推出极速模式;微博处置7万余个世界杯内容违规账号
文章目录 微博处置7万余个世界杯内容违规账号 支付宝推出极速模式 微信键盘APP上线 微博处置7万余个世界杯内容违规账号昨日,微博管理员表示,在与广大用户共享世界杯激情的同...
日期:12-19
腾讯上线“灾后微助乡村计划”小程序_灾后救助
12月22日 消息:为支持甘肃临夏州积石山地震灾后重建,12月21日,腾讯公益慈善基金会联合中国乡村发展基金会上线“灾后微助乡村计划”小程序。甘肃、青海受灾区域村委可“码”上...
日期:12-22
阿里云AI新产品“通义听悟”宣布公测 可体验大模型摘要能力「阿里 通达系」
【网易科技6月1日报道】阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线。记者获悉,通义听悟接入了通义千问大模型的理解与摘要能力,可成为用户工作学习...
日期:06-02