您的位置:首页 > 互联网

不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞

发布时间:2023-09-02 10:08:56  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】现在,34B Code Llama模型已经能够在M2Ultra上的Mac运行了,而且推理速度超过每秒20个token,背后杀器竟是「投机采样」。

开源社区的一位开发者Georgi Gerganov发现,自己可以在M2Ultra上运行全F16精度的34B Code Llama模型,而且推理速度超过了20token/s。

毕竟,M2Ultra的带宽有800GB/s。其他人通常需要4个高端GPU才能做到!

而这背后真正的答案是:投机采样(Speculative Sampling)。

Georgi的这一发现,瞬间引爆AI圈大佬的讨论。

Karpathy转发评论道,「LLM的投机执行是一种出色的推理时间优化」。

「投机采样」加速推理

在这个例子中,Georgi借助Q47B quantum草稿模型(也就是Code Llama7B)进行了投机解码,然后在M2Ultra上使用Code Llama34B进行生成。

简单讲,就是用一个「小模型」做草稿,然后用「大模型」来检查修正,以此加速整个过程。

华硕prowasw680

GitHub地址:https://twitter.com/ggerganov/status/1697262700165013689

根据Georgi介绍,这些模型的速度分别为:

- F1634B:~10token/s

- Q47B:~80token/s

如下是没有使用投机采样,标准F16采样示例:

然而,加入了投机采样策略后,速度可达~20token/s。

Georgi表示,当然,速度会因生成的内容而异。但这种方法在代码生成方面似乎效果很好,因为大多数词库都能被草稿模型正确猜出。

如果使用「语法采样」的用例也可能从中受益匪浅。

投机采样能够实现快速推理的背后具体如何实现?

三体动画上映

Karpathy根据此前谷歌大脑、UC伯克利、DeepMind的三项研究,做出了解释。

论文地址:https://arxiv.org/pdf/2211.17192.pdf

论文地址:https://arxiv.org/pdf/1811.03115.pdf

论文地址:https://arxiv.org/pdf/2302.01318.pdf

这取决于以下不直观的观察结果:

在单个输入token上转发LLM所需的时间,与在K个输入token上批量转发LLM所需的时间相同(K比你想象的要大)。

这个不直观的事实是因为采样受到内存的严重限制,大部分「工作」不计算,而是将Transformer的权重从VRAM读取到芯片上缓存中进行处理。

因此,如果要完成读取所有权重的工作,还不如将它们应用到整批输入向量中。、

我们之所以不能天真地利用这一事实,来一次采样K个token,是因为每N个token都取决于,我们在第N-1步时采样的token。这是一种串行依赖关系,因此基线实现只是从左到右逐个进行。

现在,巧妙的想法是使用一个小而廉价的草稿模型,首先生成一个由K个token组成的候选序列——「草稿」。然后,我们将所有这些信息一起批量送入大模型。

根据上述方法,这与只输入一个token的速度几乎一样快。

然后,我们从左到右检查模型,以及样本token预测的logits。任何与草稿一致的样本都允许我们立即跳转到下一个token。

如果有分歧,我们就会扔掉草稿模型,承担做一些一次性工作的成本(对草稿模型进行采样,并对后面的token进行前向传递)。

美团港股上市首日

特斯拉股价为什么腰斩

这在实践中行之有效的原因是,大多数情况下,draft token都会被接受,因为是简单的token,所以即使是更小的草稿模型也能接受它们。

当这些简单的token被接受时,我们就会跳过这些部分。大模型不同意的困难token会「回落」到原始速度,但实际上因为有额外的工作会慢一些。

所以,总而言之:这一怪招之所以管用,是因为LLM在推理时是受内存限制。在「批大小为1」的情况下,对感兴趣的单个序列进行采样,而大部分「本地 LLM」用例都属于这种情况。而且,大多数token都很「简单」。

HuggingFace的联合创始人表示,340亿参数的模型在一年半以前的数据中心之外,看起来非常庞大和难以管理。现在是笔记本就可以搞定了。

现在的LLM并不是单点突破,而是需要多个重要组件有效协同工作的系统。投机解码就是一个很好的例子,可以帮助我们从系统的角度进行思考。

参考资料:

https://twitter.com/ggerganov/status/1697262700165013689


返回网站首页

本文评论
语音直播会封号吗「半个月超20家平台关停,语音直播进入劝退期?」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。语音直播行业正刮来一股新的寒潮!6月至今,已经有近20家语音直播平台接连发布了停服公告。而据新播场不...
日期:06-14
中国特供CPU史低价1399 立减220元
在年初,Intel面向中国市场推出了两款特供处理器i5-13490F、i7-13790F,首发价分别为1599元、2999元。目前售价调整,分别来到1399元和2779元,优惠幅度高达220元,趁着618入手非常合...
日期:06-10
马斯克公开呼吁暂停AI,却暗中发展自己的AI公司
8月23日 消息:最近据《纽约客》一篇报道披露,马斯克公开呼吁应该暂停AI的发展,但同时自己却在暗中发展自己的AI公司。报道显示,马斯克与一千多名专家一起签署了公开信,要求在AI...
日期:08-23
手感新锐来袭,全新插拔轴设计 ▎达尔优DAREU-A87全插拔定制轴机械键盘正式发布
  DAREU SWITCH   手感新锐强势来袭 开启火热手感体验   DAREU-A87全插拔定制轴机械键盘   2021年4月30日,达尔优发布DAREU-A87全插拔定制轴机械键盘。传承达尔优A...
日期:01-01
漳州电信携手华为完成5G RedCap+智慧渔排监控全国首商用验证
通信世界网消息(CWW)近日,中国电信漳州分公司(下称:漳州电信)联合华为在漳州东山岛完成全国首例5G RedCap智慧渔排监控商用验证。通过在渔排四周部署RedCap摄像头,并5G回传至天翼云...
日期:07-17
“必须比时代变化更快”!阿里申请双重主要上市 还有这些对未来的思考
记者/陈婷; ;   编辑/刘雪梅;;   “过去这一年,在风云变幻的国际、国内形势下,我们共同面临着很多的‘时代之问’。我们应对之道的基本原则是‘坚定信心,积极应变,做好自己...
日期:07-31
iphone12相机传感器imx「外媒:苹果iPhone 15将搭载索尼最新图像传感器」
11月29日消息,据国外媒体报道,苹果将在2023年推出的iPhone 15将配备索尼最新、最先进的图像传感器。据悉,2023年,苹果可能会继续推出4款‌iPhone机型:6.1英寸的‌iPhone 15‌、6....
日期:12-02
微博锁热搜时间「微博iOS锁屏热搜组件上线 可随时查看当下热搜榜」
11月18日 消息:个性化锁屏小部件是iPhone升级到iOS16后的一大特色亮点。日前,微博最新版适配iOS16新功能,允许用户将微博热搜小部件添加到锁屏,随时轻松了解当前微博热搜榜信息...
日期:11-19
在每一帧都如幻化般唯美的《侍神令》里,任何细节你都不该错过
  虽然2021刚开年,但想必不少“阴阳师”的粉丝们已经按捺不住了。作为最火爆手游改编的电影,《侍神令》还未上映就赚足了眼球和话题,浓郁的东方色彩将为这个新春带来一丝别...
日期:07-16
空间互联网将改变世界航天工业模式 王建宇院士:航天工业将不再神秘
“航天是中国人的骄傲之一。1970年发射东方红号之后,中国发射的航天器数量位居世界第二,是名副其实的航天大国,我们现在要做的是思考何时变成真正的航天强国。”中国著名光电技...
日期:12-30
国人不买账了?特斯拉上海工厂被曝已停产 专家称库存充足「特斯拉上海工厂量产了吗」
特斯拉停产了?根据一份内部通知和两位知情人士的说法,特斯拉周六暂停了其上海工厂的生产,提前执行了之前的计划,即在12月的最后一周暂停工厂的大部分工作。摩尔定律是由英特尔创...
日期:12-26
win10如何启动tpm「微软 Win10 中发现 TPM、安全启动要求文件,但没有启用」
IT之家 8 月 28 日消息,微软 Windows 11 作为全新一代操作系统,对于设备要求包括 TPM 2.0、安全启动、基于虚拟化的安全(VBS)等,导致部分设备无法升级。而根据最新发现的文件,微软...
日期:09-27
海尔洗碗机:1张塑料纸,两面都干净_海尔洗碗机洗碗块放什么位置
谁来洗碗争吵不休、动手洗碗费时费力......洗碗机的出现虽然能在一定程度上解放双手,但是遇到油污状况严重的碗盘、锅具,传统洗碗机单面喷淋侧重于餐具内部一面的清洁,背面容易...
日期:04-11
交通运输部:加快推进网约车合规化,开展平台抽成“阳光行动”
  1 月 28 日消息,据交通运输部微信公众号消息,1 月 27 日,交通运输新业态协同监管部际联席会议召开 2022 年第一次全体会议,总结 2021 年工作情况,研究部署 2022 年工作安排...
日期:07-17
卡思数据:轻熟人社交,抖音社交「下一城」_卡思数据排行榜抖音
  XXX,邀请你进行视频通话。   正在刷抖音的你可能会接到这样一条视频通话请求,来自抖音里与你互关的一位朋友,当你一脸疑惑的点进视频里,你会发现:素颜的你,脸上带着精致...
日期:07-14
双十一最后冲刺,如何抢占流量洼地?「双十一营销热点」
声明:本文来自于微信公众号 友望数据(ID:youwangshuju),作者:西楼,授权转载发布。今晚8点,视频号“超品日-11·11购物狂欢节”就要开启。经过了两年多的发展,视频号在商业玩法上已...
日期:11-01
rtx系列显卡原价「首发12999元起!RTX 4090公版显卡国行10月15日正式开售」
今天,NVIDIA正式官宣,RTX 4090显卡将于10月15日在国内线下现货首发。iphone 14首发抢不到要等到什么时候据悉,此次NVIDIA将联合沈阳京东MALL、与华硕、七彩虹和微星赛达厂商一...
日期:10-08
伦敦证券交易所前身「伦敦证券交易所正与微软合作 创建定制的生成式AI模型」
8月4日 消息:据FINANCIAL TIMES消息,伦敦证券交易所集团正在与微软和多家银行合作,创建定制的生成式人工智能模型,这显示了金融服务业正在寻求利用这项技术,而不暴露自己的专有...
日期:08-04
中国著名科幻杂志《科幻世界》拒收ChatGPT投稿
据每日经济新闻报道,中国著名科幻杂志《科幻世界》将拒收ChatGPT等在内的AI投稿。中国著名科幻杂志《科幻世界》主编拉兹在接受采访时表示,将在下一期(4月期)杂志上正式宣布,不接...
日期:02-25
美团网购电影票_上美团App买票看电影!久违的快乐回来了
  在万众期待中,电影行业终于等来了好消息,而且还是好事成双。根据国家电影局官网公告,低风险地区在电影院各项防控措施有效落实到位的前提下,可于7月20日有序恢复开放营业;...
日期:07-14