您的位置:首页 > 互联网

2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

发布时间:2023-12-21 17:46:46  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:上交大IPADS实验室,授权转载发布。

原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G4090就够了!

上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。

而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080Ti也能流畅运行70B模型。

结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。

相比于llama.cpp,PowerInfer实现了高达11倍的加速,让40B模型也能在个人电脑上一秒能输出十个token。

我们最熟悉的ChatGPT,一方面有时会因为访问量过大而宕机,另一方面也存在数据安全问题。

开源模型能较好地解决这两个问题,但如果没有高性能的显卡,运行速度往往十分感人:

而PowerInfer的出现,刚好解决了这个痛点。

PowerInfer一经发布就引起热烈反响,不到24小时就获得了500+星标,其中还有一颗来自llama.cpp的作者Gerganov。

目前,PowerInfer的源码和论文均已公开,下面就一起看看它的加速效果究竟有多强。

推理速度最高11倍

在搭载x86CPU和NVIDIA GPU的消费级硬件平台上,PowerInfer以参数量从7B到175B的一系列LLM模型为基准,对PowerInfer的端到端推理速度进行了测试,并和同平台上性能最好的推理框架llama.cpp进行了对比。

对于FP16精度的模型,在搭载了13代Intel Core i9和单张RTX4090的高端PC(PC-High)上,PowerInfer平均实现了7.23倍的速度提升,其中在Falcon40B上实现了高达11.69倍的速度提升。

在所有测试用例上,PowerInfer平均达到了8.32tokens/s,在OPT30B和Falcon40B上最高分别达到16.06tokens/s和12.94tokens/s。

借助PowerInfer,当今的消费级平台可以流畅运行30-40B级别的LLM,并以可以接受的速度运行70B级别的LLM。

△PowerInfer在不同模型中不同输出长度下平均生成token速度测试图,纵坐标为加速比,每根柱状图上标注的数字代表了每秒钟能够生成的token数量

模型量化是端侧LLM推理非常常用的技术,PowerInfer也支持了INT4量化模型的推理。

PowerInfer分别在高端PC(PC-High)和搭载单张RTX2080Ti的中低端PC(PC-Low)上测试了一系列INT4量化模型的推理速度。

在PC-High上,PowerInfer能够高速运行40-70B规模的模型,最高达到了29.09tokens/s的推理速度,并且实现了平均2.89倍,最高4.28倍的速度提升。

同时,在消费级硬件上运行OPT-175B这种规模的模型也成为可能。

在PC-Low这种中低端PC上,PowerInfer可以流畅运行30-70B规模的模型,并实现平均5.01倍,最高8.00倍的速度提升,这主要得益于INT4量化后模型大部分热神经元得以放置在显存中。

△PowerInfer在INT4量化模型中的推理速度,纵坐标为加速比,每根柱状图上标注的数字代表了每秒钟能够生成的token数量

最后,PowerInfer对比了PC-High上运行PowerInfer相比于云端顶级计算卡A100运行SOTA框架vLLM的端到端推理速度,测试模型为FP16精度的OPT-30B和Falcon-40B(ReLU)。

当输入长度为64时,PowerInfer对A100的速度差距从93%-94%缩小到了28%-29%;在输入长度为1的纯生成场景中,这一差距会被进一步缩小到低至18%。

这代表着PowerInfer借助稀疏激活和CPU/GPU混合推理,极大地弥合了消费级显卡到顶尖服务端计算卡的推理速度差距。

△PowerInfer在4090上与vLLM在A100的性能对比

那么,PowerInfer是如何实现消费级硬件上的高速推理的呢?

充分利用模型和硬件特点

PowerInfer实现高速推理的秘诀,在于充分利用了稠密模型存在的高局部性的稀疏激活,并与CPU和GPU的运算特点进行了充分结合。

何谓“稀疏激活”?

最近Mixtral MoE大模型引爆了整个AI圈,稀疏模型重新进入大家的视野。

一个有趣的事实是:像OPT、LLaMA(ReLU)这样被视为稠密模型的LLM,同样存在稀疏激活的特征。

什么是稠密模型的稀疏激活呢?

和MoE模型中一个输入token只需要激活FFN layer其中一个或者两个专家模块类似,以OPT模型的稠密FFN层为例,只需要激活一小部分(实验显示约10%)神经元即可保证输出的正确性。

其他的神经元虽然参与了计算,但并没有对输出产生明显贡献。

换句话说,稠密模型中的每一个神经元都是一个专家!

△左图来自Alexander Clark论文(aRXiv编号:2101.03961)

MoE模型可以在专家FFN层之前通过路由模块将输入分发给其中一个或者两个专家进行计算,那么稠密模型中的稀疏激活又该如何路由或者在计算之前就知道哪些专家神经元会对结果产生贡献呢?

答案是为稠密模型增加路由预测模块。

在模型开始服务前,PowerInfer首先会对模型进行离线分析,通过将模型在通用数据集中进行推理获取每一层输入与激活神经元之间的对应关系,进而为稠密模型每一层训练一个小的预测路由模块来预测每一个输入会激活的神经元,只计算路由激活的神经元(专家)。

在多个下游任务的测试中,PowerInfer的路由模块几乎没有引入额外的精度损失。

稀疏激活带来的推理局部性

三星新款a52

稀疏激活的另一个有趣事实是,尽管对于不同的输入token,激活的神经元分布存在差异;但如果在足够多的数据上进行推理,并将每次激活的分布叠加,PowerInfer发现少部分神经元总体上被激活的概率更高。

也就是说,统计意义上大模型神经元的激活符合Power Law分布(Power Law分布是一种统计规律,表示少数事件的发生频率远高于大量其他事件)。

如下图(a)所示,对于OPT-30B和LLaMA(ReGLU)-70B两个模型里的某一层FFN网络,统计意义上26%和43%的神经元分别贡献了80%的激活。

而在整个模型的尺度上,如下图(b)所示,17%和26%的神经元贡献了80%的激活。

因此,当只考虑对最终激活有贡献的运算时,LLM具有推理局部性:对权重的访问倾向于集中在一定的区域,而不是均匀分布在所有的神经元上。

在推理运算中它显现为程序的局部性:对内存空间的访问倾向于集中在一定的区域,而不是均匀分布在整个内存空间。

在常见的个人电脑中,GPU具有较少的显存和更强的计算能力,适合处理频繁访问且计算强度高的任务;而CPU拥有更大的内存容量但相对较弱的算力,适合处理少量访问且计算强度低的任务。

因此,理想情况下,一小部分经常访问的神经元应该存储在显存中,相比之下更大、访问频率更低的神经元更适合存储在内存中,由CPU进行计算。

这启发了PowerInfer基于局部性特征进行CPU/GPU混合推理系统的设计。

CPU/GPU混合推理设计

根据上述神经元的Power Law和由此产生的局部性,PowerInfer通过提前静态分析每一个神经元的冷热性,将少量的热神经元加载在GPU显存上,剩余的冷神经元加载到CPU的内存中。

以神经元为粒度的模型混合加载,会出现一层内有些神经元在GPU上,有些神经元在CPU上。

为此,PowerInfer设计了细粒度的CPU/GPU混合推理引擎。

以下图为例,对于某一层的输入,PowerInfer会首先预测该输入会激活神经元为3,4,5。

iPhone12降价800

然后CPU、GPU会分别根据预测信息,执行位于其内存中的神经元的计算。

具体以下图的例子来说,CPU上会计算第四个神经元,GPU上会计算第三个、第五个神经元,然后再GPU上对两边的计算结果进行合并。

△PowerInfer混合计算的方式

PowerInfer的整体架构

总体而言,PowerInfer利用基于稠密模型的稀疏激活及其引入的局部性特性,开发出了一种创新的CPU/GPU混合推理引擎。

在接入一个大型语言模型(LLM)时,PowerInfer首先在离线阶段对模型的预测路由模块进行训练,并深入分析模型的激活特征。

同时,结合目标硬件的带宽和容量等关键信息,计算出最佳的神经元放置策略。

在此基础上,PowerInfer会根据这些计算结果,将神经元优化地分布在内存或显存中。

在在线推理阶段,CPU和GPU分别处理存储在其内存中的神经元,随后在GPU上对这些独立计算的结果进行高效合并。

△PowerInfer整体架构图

总结与展望

对于端侧用户而言,PowerInfer的高效推理框架打开了新的可能性。

首先,它使得个人电脑用户能够在本地运行先进的大型语言模型,而无需昂贵的专业硬件。

这不仅促进了人工智能应用的普及化,也为爱好者、研究人员和小型企业提供了前所未有的机会。

在云端部署方面,PowerInfer同样存在巨大的潜力。

现有的云端CPU也有强大的AMX计算单元支持,通过利用CPU、GPU间的异构特征,可以乐观地认为PowerInfer能够使用更少的高端计算卡,做到更高的服务吞吐。

论文地址:

https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf


返回网站首页

本文评论
微软云计算服务遭欧盟非正式调查(美国诉微软)
  北京时间 4 月 2 日消息,路透社获悉的一份调查表显示,欧盟反垄断机构在就云计算服务、许可交易征询客户和竞争对手看法,这意味着欧盟可能对微软展开正式的反垄断调查。此...
日期:07-18
王腾科普Redmi K70 Pro自研循环冷泵与VC区别 :散热能力是VC 3倍
快科技11月30日消息,日前,Redmi K70发布,Redmi为新机打造了冰封散热系统”,配备5000mm超大环形冷泵,让SoC快速降温。 今日,Redmi市场总经理、Redmi品牌发言人王腾在微博发长文,...
日期:12-01
格莱美奖与人工智能生成音乐划清界限:只有人类创作者有资格参与
6月26日消息:每年,格莱美奖背后的 Recording Academy(格莱美奖组织机构)都必须重新评估其指南和奖项规则,以反映音乐流派的流行度变化和新的奖项类别。今年,该学院必须考虑到一个...
日期:06-26
合合信息启信宝与全国性股份制商业银行达成合作,聚焦产业链数字化管理
(原标题:合合信息启信宝与全国性股份制商业银行达成合作,聚焦产业链数字化管理) 佳能eos r5降价 实体经济是推动经济增长、保障...
日期:09-05
打造Switch最佳直连方案,雷鸟Air2及JoyDock上新_switchlite怎么连airpods
来源:中关村在线10月25日,XR眼镜雷鸟Air2、Switch游戏拍档JoyDock正式上线京东、天猫平台开启预售。雷鸟Air2定价2499元,首发尝鲜价2299元;JoyDock定价599元,套装组合首发优惠价2...
日期:10-26
看KOL向你发起“搭子”邀请
声明:本文来自于微信公众号 壁虎看KOL(ID:bihukankol),作者:江渔,授权转载发布。不知从何时起,“搭子”这个词汇悄悄流行起来。当我们打开社交软件输入“搭子”一词,能很轻松的发...
日期:05-23
雅迪电动车与大师合作 成时尚“弄潮儿”出行首选_雅迪电动车评论
  在中国经济高速发展的今天,中国人消费结构与消费偏好正在悄然发生变化,“Z时代”为主体的消费大军异军突起。两轮电动车行业竞争也进入了白热化阶段,消费者除了要求电动车...
日期:07-16
高考,冲鸭!雅迪电动车祝福考生一帆风顺,前程似锦
奋战百日凌壮志,激扬逐梦正青春。近日,雅迪电动车推出的京东购券9.9抵100元、开学季学生和教师购车专享优惠等福利活动,引发网友热议,“考生们加油!”“雅迪好有心”“雅迪为学...
日期:03-08
魅族 20 INFINITY 无界版开售:魅族泰坦玻璃,6299 元起「魅族a20」
魅族在3月30日的魅族20系列发布会上推出了一款全新的产品,即魅族20 INFINITY 无界版手机。该机将于今日上午10点全渠道开售,起售价为6299元。该机采用了独特的设计语言,并应用...
日期:06-12
沃达丰:谷歌Nexus S将在澳大利亚上市_谷歌nexus系列
  2月9日消息,据国外媒体报道,第二款带有谷歌标志的智能手机即将在澳大利亚上市。分析家日前预期在澳大利亚,谷歌移动平台的销售将会在未来几年之内超过苹果iPhone。   已...
日期:07-26
还买苹果14吗?华为公布Mate50E上市时间 3999元起仍是4G_华为mate50多会儿上市
最便宜的Mate 50版本要来了,3999元起步,你买它还是iPhone 14?虎牙2019年营收和利润是多少现在,华为官方给出了预告,Mate50E将会在今日上午10:08开启预售,10月14日10:08正式开售,其...
日期:10-10
快手新增《快手小店预包装食品类商品抽检规范 》「快手小店的散装食品怎么上架」
今天,快手发布《快手小店预包装食品类商品抽检规范 》新增公告。公告称, 为提升平台服务水平和商户经营质量,给用户创造良好的购物体验,平台现将原茗茶类 ,蜜饯果干类 ,罐头类 ,调...
日期:10-29
如何平衡 Wi-Fi 7与未来5G/6G的发展?_wifi6+和5g哪个更快
通信世界网消息(CWW)随着社会进步,人们对信息技术的需求不断提升。当前互联网、大数据、云计算、人工智能、区块链等新技术深刻演变,产业数字化、智能化、绿色化转型不断加速,智...
日期:10-19
辛有志:直播间背后是数十万人的长时间运作(辛有志团队什么时候直播)
  自2016年电商平台上线直播购物功能以来,直播电商发展飞速,快速拉动经济发展,直播电商的风口已至。2016年-2019年,直播电商年均市场规模增速均保持在200%以上。   行业蓬...
日期:05-19
为什么一定要抖音卖货?!_为什么一定要抖音卖货才能卖
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。直到现在,还有人在吐槽,这些在抖音、快手、小红书甚至在公众号、微博上...
日期:11-25
我国成功发射遥感三十六号卫星 长二丁火箭30年连胜70发_我国成功发射通信卫星六号
11月27日20时23分,长征二号丁运载火箭在西昌卫星发射中心点火起飞,随后将遥感三十六号卫星送入预定轨道,发射取得圆满成功。此次发射的遥感三十六号卫星,由中国航天科技集团五院...
日期:11-29
吉林省民政厅云上开展“智慧民政”,为群众绘就幸福底色_吉林民政app
吉林省民政厅本着建设服务型政府,履行“为民执政”宗旨,积极开展“智慧民政”工作部署,持续推动社会建设和社会管理工作数字化、智能化、现代化。携手小鱼易连建设的吉林省民政...
日期:04-07
Galaxy S24 系列手机有望率先搭载,三星已做好卫星通讯技术准备
IT之家 10 月 28 日消息,三星 System LSI 部门首席执行官 Park Yong-in 近日确认,将从明年开始,支持用于紧急联系的卫星服务,暗示明年推出的 Galaxy S24 系列手机支持双向卫星通...
日期:10-28
工业互联网展望「赵骥 吴澄:未来工业互联网的发展与应用」
通信世界网消息(CWW)当前,社会对现代工业系统发展有着迫切的需求。未来工业互联网作为工业制造与互联网深度融合的新工业生态,具有全要素连接、动态实时变结构、系统开放、柔性...
日期:06-12
英特尔宗晔:将AI赋能PC行业 推动实现AI计算无处不在
(原标题:英特尔宗晔:将AI赋能PC行业 推动实现AI计算无处不在) 应用场景变化驱动PC创新,PC融入创新特性后催生出全新应用场景。...
日期:09-28