您的位置:首页 > 互联网

GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录

发布时间:2023-11-07 02:58:00  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

想用大模型赚钱?这个实力强劲的新面孔决定先把推理成本打下来。

大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参考答案。

报道显示,微软的 GitHub Copilot 业务(背后由 OpenAI 的 GPT 大模型支撑)虽然每月收费10美元,但平均还是要为每个用户倒贴20美元。可见当前 AI 服务提供商们正面临着严峻的经济账挑战 —— 这些服务不仅构建成本高昂,运营成本也非常高。

有人比喻说:使用 AI 总结电子邮件,就像是让兰博基尼送披萨外卖。

对此,OpenAI 算过一笔更详细的账:当上下文长度为8K 时,每1K 输入 token 的成本为3美分,输出的成本为6美分。目前,OpenAI 拥有1.8亿用户,每天收到的查询数量超过1000万次。这样算来,为了运营 ChatGPT 这样的模型,OpenAI 每天都需要在必要的计算硬件上投入大约700万美元,可以说是贵得吓人。

降低 LLM 的推理成本势在必行,而提升推理速度成为一条行之有效的关键路径。

实际上,研究社区已经提出了不少用于加速 LLM 推理任务的技术,包括 DeepSpeed、FlexGen、vLLM、OpenPPL、FlashDecoding 和 TensorRT-LLM 等。这些技术自然也各有优势和短板。其中,FlashDecoding是 FlashAttention 作者、斯坦福大学团队的 Tri Dao 等人在上个月提出的一种 state-of-the-art 方法,它通过并行加载数据,大幅提升了 LLM 的推理速度,被认为极具潜力。但与此同时,它也引入了一些不必要的计算开销,因此依然存在很大的优化空间。

为了进一步解决问题,近日,来自无问芯穹(Infinigence-AI)、清华大学和上海交通大学的联合团队提出了一种新方法 FlashDecoding++,不仅能带来比之前方法更强的加速能力(可以将 GPU 推理提速2-4倍),更重要的是还同时支持 NVIDIA 和 AMD 的 GPU!它的核心思想是通过异步方法实现注意力计算的真正并行,并针对矮胖矩阵乘优化加速 Decode 阶段的计算。

论文地址:https://arxiv.org/pdf/2311.01282.pdf

将 GPU 推理提速2-4倍,

极米投影仪 上市公司

FlashDecoding++ 是怎么做到的?

LLM 推理任务一般为输入一段文字(token),通过 LLM 模型计算继续生成文字或其他形式的内容。

LLM 的推理计算可被分为 Prefill 和 Decode 两个阶段,其中 Prefill 阶段通过理解输入文字,生成第一个 token;Decode 阶段则顺序输出后续 token。在两个阶段,LLM 推理的计算可被分为注意力计算和矩阵乘计算两个主要部分。

对于注意力计算,现有工作如 FlashDecoding 切分注意力计算中的 softmax 算子实现并行加载数据。这一方法由于需要在不同部分 softmax 同步最大值,在注意力计算中引入了20% 的计算开销。而对于矩阵乘计算,在 Decode 阶段,左乘矩阵多表现为矮胖矩阵,即其行数一般不大(如 <=8),现有 LLM 推理引擎通过补0将行数扩充到64从而利用 Tensor Core 等架构加速,从而导致大量的无效计算(乘0)。

为解决上述问题,FlashDecoding++的核心思想在于,通过异步方法实现注意力计算的真正并行,并针对矮胖矩阵乘优化加速 Decode 阶段的计算。

异步并行部分 softmax 计算

图1异步并行部分 softmax 计算

先前工作对每个部分 softmax 计算求输入最大值作为缩放系数,避免 softmax 计算中 e 指数的溢出,这就导致了不同部分 softmax 计算的同步开销(图1(a)(b))。

图2softmax 输入值统计分布

FlashDecoding++指出,对于大部分 LLM,其 softmax 的输入分布较为集中。如图2所示,Llama2-7B 的 softmax 输入99.99% 以上集中在 [-16.8,6.5] 这个区间。因此,FlashDecoding++提出在部分 softmax 计算时使用一个固定的最大值(图1(c)),从而避免了不同部分 softmax 计算间的频繁同步。而当小概率发生的输入超出给定范围时,FlashDecoding++对这一部分的 softmax 计算退化为原先的计算方法。

矮胖矩阵乘的优化

图3矮胖矩阵乘切分与双缓存机制

24.99万起!特斯拉再大降价

由于 Decode 阶段的输入为一个或几个 token 向量,因此该阶段的矩阵乘表现为矮胖形状。以矩阵 A×B=C 为例,A 与 B 矩阵的形状为 M×K 与 K×N,矮胖矩阵乘即 M 较小的情况。FlashDecoding++指出矮胖矩阵乘一般缓存受限,并提出双缓存机制等优化手段进行加速(图3)。

图4自适应矩阵乘实现

此外,FlashDecoding++进一步指出,在 LLM 推理阶段,针对特定模型,N 和 K 的取值固定。因此,FlashDecoding++会根据 M 的大小,自适应选取矩阵乘的最优实现。

将 GPU 推理提速2-4倍

图5FlashDecoding++NVIDIA 与 AMD 平台 LLM 推理(Llama2-7B模型,batchsize=1)

目前,FlashDecoding++可以实现 NVIDIA 与 AMD 等多款 GPU 后端的 LLM 推理加速(图5)。通过加速 Prefill 阶段的首 token 生成速度,以及 Decode 阶段每个 token 的生成速度,FlashDecoding++可以在长、短文本的生成上均取得加速效果。相较于 FlashDecoding,FlashDecoding++在 NVIDIA A100上的推理平均加速37%,并在 NVIDIA 和 AMD 的多 GPU 后端上相较于 Hugging Face 实现加速多达2-4倍。

AI 大模型创业新秀:无问芯穹

该研究的三位共同一作分别是无问芯穹首席科学家、上海交通大学副教授戴国浩博士,无问芯穹研究实习生、清华大学硕士生洪可,无问芯穹研究实习生、上海交通大学博士生许珈铭。通讯作者为上海交通大学戴国浩教授和清华大学电子工程系主任汪玉教授。

创立于2023年5月的无问芯穹,目标是打造大模型软硬件一体化最佳解决方案,目前 FlashDecoding++ 已被集成于无问芯穹的大模型计算引擎Infini-ACC中。在Infini-ACC的支持下,无问芯穹正在开发一系列大模型软硬件一体化的解决方案,其中包含大模型无穹天权(Infini-Megrez)、软硬件一体机等。

据了解,Infini-Megrez在处理长文本方面表现非常出色,将可处理的文本长度破纪录地提升到了256k token,实测处理大约40万字的一整本《三体3:死神永生》也不成问题。这是当前的大模型所能处理的最长文本长度。

此外,Infini-Megrez大模型在 CEval (中)、MMLU (英)、CMMLU (中)、AGIEval 等数据集上均取得了第一梯队算法性能,并依托Infini-ACC计算引擎持续进化中。


返回网站首页

本文评论
刘润老师,再不认错就来不及了_刘润老师金句
鞭牛快评鞭牛士昨天报道了刘润年度演讲引发三方血战 的文章,将两位卷入纷争的CEO的正面PK做了完整呈现,其实最终的争议已经非常清晰了,那就是刘润老师的演讲PPT真的错了。几方...
日期:11-02
Google将在下周开始提供HTTPS搜索以保护隐私
  下周,Google I/O就将开始,Mayer和Eric Schmidt将共同为人们展示Google的加密搜索特性。   Google在2008年起于GMail中首次引入HTTPS,用来保护电子邮件访问的安全性,今年1...
日期:07-29
辛选直播带货排名「辛选双11战报:直播间累计带货1.16亿单产品」
11月15日消息,辛选集团今日公布的双十一战报数据显示,10月22日至11月12日(辛选双十一周期),辛选30余名主播直播近百场,为1600多个品牌带货,SKU超3万;累计带货1.16亿单产品,其中销售...
日期:11-16
发热、信号bug频出 沈义人吐槽苹果iOS 16:稳定性最差一代_ios15发热情况
两周前,伴随着iPhone 14系列的上市,苹果也正式推送了iOS 16系统,这本来是一次大版本更新,带来了不少新功能,然而没等果粉享受各种新功能,最近吐槽iOS 16问题多的网友占了上风。就...
日期:09-30
比亚迪宋PLUS冠军版开启预售 老车主:这次终于没背刺「比亚迪宋plusdmi2022」
快科技6月8日消息,比亚迪宋PLUS(含DM-i、EV)冠军版正式开启预售,其中DM-i共推四款车型,预售价16.98-19.98万元;EV版同样为四款车型,预售价17.98-21.98万元。其中宋PLUS DM-i冠军版...
日期:06-09
红米手机千元「红米百元机重出江湖?放言为普及5G手机而来」
9月29日消息,Redmi红米手机宣布,Redmi千元小金刚再添猛将,Note 11R为普及5G手机疾速而来。简单说,小米推出了Note 11R,虽然说定价千元,但随着双11到来,未来价格落到百元几乎是可以...
日期:10-02
互联网直播录音制品试行付酬标准发布,每年100-10000元不等(广播电视台播放录音制品支付报酬暂行办法)
7月25日,中国音像著作权集体管理协会在官网上发布了互联网直播录音制品的试行付酬标准。   最新修改的《著作权法》第45条新增了音乐制作者的“获酬权”:即网络直播中使用音...
日期:07-31
中国移动 董宁「中国移动 CEO 董昕:初步判断 2028 年 6G 会全面迎来商用」
IT之家 8 月 11 日消息,中国移动 8 月 10 日举办 2023 年半年度业绩说明会,CEO 兼执行董事董昕表示,6G 对于 5G 来说,是一个跳跃性的技术发展,2028 年 6G 将全面迎来商用。天猫精...
日期:08-11
荣耀618超值福利来袭,多款爆款单品限时最高优惠500元
  一年一度的 618 狂欢大促即将开启。近日,荣耀正式公布 618 预售全面开启,多款热销产品均加入其中,荣耀商城、京东、天猫、抖音、快手平台超级福利一站备齐。消费者不仅可享...
日期:05-26
华为三立(北京)能源科技有限公司「华为发布“三力四总线”,打造智能世界数字基础大设施」
通信世界网消息(CWW)9月21日,华为全联接大会2023期间,华为董事、ICT产品与解决方案总裁杨超斌发表了“拥抱AI时代,构筑智能世界数字基础大设施”的主题演讲。大模型进入百模千态...
日期:09-23
10万95后回乡“务农”「年轻人返乡务农」
声明:本文来自于微信公众号 字母榜(ID:wujicaijing),作者:彦飞,授权转载发布。在创业失败、背上60多万元外债后,李诗宣决定回乡务农。李诗宣1996年生于山西吕梁文水县的刘胡兰镇,2...
日期:10-01
加速器上google「Google开放循环经济加速器的申请」
据TechCrunch报道,Google正在围绕难以捉摸的循环经济建立一个新的、仅在线的创业加速器。这项工作是Google为帮助关注环境的初创企业成长而做出的最新努力,同时在这个过程中可...
日期:10-05
快手StreamLake亮相LiveVideoStackCon,展示一站式音视频+AI解决方案
  视频化已是各行业大势所趋,激发出多元化需求。面临机遇与挑战,快手StreamLake专注于成为视频化升级助推器,推出视频化升级全链路解决方案。近期,快手StreamLake亮相LiveVide...
日期:04-10
《LOL》S11冠军 EDG老板公司欠款849万成老赖:被限制高消费
前不久,在今年《LOL》S12总决赛上,EDG战队止步八强,令人非常遗憾。据报道,最近EDG老板似乎惹上了一些麻烦,因欠款不还成了老赖,还被限制高消费了。任天堂switch所有教程iphone14pr...
日期:11-25
剧版《三体》编剧参与:知名科幻小说《银河英雄传说》电视剧官宣
今天,灵河文化官方宣布,将基于日本知名科幻小说《银河英雄传说》推出同名改编电视剧,由爱奇艺独占播出。目前,官方公布了剧版《银河英雄传说》的首张海报,从海报来看,该作由田良良...
日期:05-10
面对微博新机会 所有中国互联网网站都不愿错过这一配置
  尽管新浪微博占据了weibo.com的域名,面对微博的新机会,所有中国互联网网站都不愿错过这一配置。   腾讯内部人士昨日对《第一财经日报》透露,腾讯将依靠整合康盛微博平...
日期:07-27
最便宜的5g千元机「华为5G千元机卖爆:好用不贵」
在11月华为正式发布并上线了一款5G智能手机,在华为旗下位数不多的5G手机中,也是最便宜的系列之一,这款手机还支持双卡5G,引来了不少用户的青睐,随着双11的大促到来,这款华为的5G新...
日期:11-29
我爱我家:前三季度营收67.51亿元,同比下降22.27%(我爱我家 营收)
10月27日消息,我爱我家发布公告称,前三季度营收67.51亿元,同比下降22.27%;归属于上市公司股东的净利润2.44亿元,同比下降61.93%。我爱我家称,第二季度和第三季度,公司各项业务已逐...
日期:08-07
App 不得捆绑下载、拒绝使用等,国家网信办就《移动互联网应用程序信息服务管理规定》公开征求意见
  1 月 5 日消息,国家互联网信息办公室对 2016 年 8 月 1 日正式施行的《移动互联网应用程序信息服务管理规定》进行了修订,现向社会公开征求意见。   《征求意见稿》共...
日期:07-17
知麻投影仪说明书「知麻&尊宝深度定制:黑胶音质,蓝光画质,留声机投影S1」
  知麻留声机投影S1 将在 5 月 20 全网预售,这款投影仪的出现将为投影市场注入全新活力,开启投影界的下一阶级。  作为一款全新的产品,知麻留声机投影仪S1 实现了全方位的...
日期:05-18