您的位置:首页 > 互联网

pytorch 训练代码「通过这些代码,PyTorch团队让Llama 7B提速10倍」

发布时间:2023-12-05 23:40:06  来源:互联网     背景:

要点:

  • PyTorch团队通过优化技术,在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍,达到了244.7tok/s。

  • 优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding(猜测解码)、张量并行等手段,以及使用不同精度的权重量化,如int8和int4。

  • 通过组合以上技术,包括"compile + int4quant + speculative decoding"的组合,以及引入张量并行性,实现了在Llama-70B上达到近80tok/s的性能。

12月5日 消息:近期,PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。

华为手机哪些5g手机有麒麟系统

推理性能的初始状态,大模型推理性能为25.5tok/s,效果不佳。然后,通过PyTorch2.0引入的torch.compile函数,以及静态KV缓存等手段,成功减少CPU开销,实现了107.0TOK/S的推理速度。

pytorch mlp

pytorch amp

宝马电动汽车计划

代码地址:https://github.com/pytorch-labs/gpt-fast

为了进一步提高性能,团队采用了GPU量化技术,通过减小运算精度来加速模型。特别是使用int8量化,性能提升了约50%,达到了157.4tok/s。

然而,仍然存在一个问题,即为了生成100个token,必须加载权重100次。为解决这个问题,团队引入了Speculative Decoding,通过生成一个“draft”模型预测大模型的输出,成功打破了串行依赖,进一步提升了性能。

使用int4量化和GPTQ方法进一步减小权重,以及将所有优化技术组合在一起,最终实现了244.7tok/s的推理速度。

全球最大独角兽

印度5g最新进展

为了进一步减少延迟,文章提到了张量并行性,通过在多个GPU上运行模型,进一步提高了性能,特别是在Llama-70B上达到了近80tok/s。

PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度,而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。

pytorch amp


返回网站首页

本文评论
广汽丰田集团公司「涉及上千人 消息称广汽丰田大裁员」
【】7月25日消息,在新能源潮流和自主品牌崛起的双重背景下,合资车企正面临较大压力。据日经中文网消息,丰田和广州汽车集团的合资公司“广汽丰田”针对1000名员工提前终止了合...
日期:09-19
百度文心一言正式全面开放
通信世界网消息(CWW)据百度消息,8月31日,文心一言率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com)体验。据悉...
日期:08-31
消息称华为Mate 50系列确实按5G手机设计:为未来5G回归打基础「华为mate50 5G」
最近,有博主拆解华为Mate 50 Pro后发现,手机PCB上预留了5G射频芯片的位置,附近滤波电容电阻也没有出料。消息一出,引起大家猜测:Mate 50 Pro是按5G手机来设计的吗?后续能升级成5G...
日期:09-27
“智运快线”的小索道,大变革_智轨快运a1线
通信世界网消息(CWW)在江西省安远县鹤子镇,一个个穿梭机器人被架在低空索道上以60km/h的速度将货物从电商运营中心分发出去,有效打通了“消费品下行”最后一公里和“农产品上行...
日期:12-05
运营商董事长年薪「某运营商董事长已经调走了  新职位与运营商关系也很密切」
近期,中国联通集团董事长刘烈宏已调走,但具体担任什么职务呢?7月28日,准确的消息出来了。据人社部发布的信息,刘烈宏为国家数据局局长,显然,刘烈宏不再当中国联通董事长了,而去当国...
日期:08-01
分析师:苹果AR眼镜因设计问题可能推迟到2025年或2026年推出
11月9日消息,据国外媒体报道,苹果公司仍在按计划于明年推出AR/VR头显,但海通国际分析师Jeff Pu表示,由于“设计问题”,传闻中的苹果增强现实(AR)眼镜可能被推迟到2025年或2026年推...
日期:11-15
二代骁龙8下放一加Ace2 Pro:1.5K高频调光曲屏「一加8pro曲率多少」
快科技5月16日消息,一加此前已经推出了一加Ace2以及一加Ace2V,分别搭载骁龙8、天玑9000芯片,现在一加Ace2Pro也要来了。据博主数码闲聊站”透露,一加Ace2Pro将会配备1.5K曲面屏,...
日期:05-16
上海漫展惊现“女菩萨” 现场还真有人跪拜「上海漫展女拍摄角度」
上海CP29漫展于5月3日落幕,其中最让人惊讶的是一位女子COS成“观音菩萨”,她的扮相十分庄严,手持玉净瓶,还散发出佛光,吸引了众多漫迷前来膜拜。美国卡车自动驾驶索尼fx30新品发...
日期:05-04
投影仪3d电影app软件,教你几招,当贝F1效果太震撼了_当贝投影仪怎么看3d电影
  众所周知,3D电影更加立体生动,相对比普通的高清电影更具有观赏性。那么如果家中的观影设备是投影仪,如何实现看3D电影呢?需要提前下载哪些观看3D电影app软件?家中的投...
日期:07-14
识别生僻字微信小程序「支持拍照快速上传-腾讯上线首个“生僻字征集”微信小程序」
4 月 20 日消息,腾讯今天面向国人征集生僻字的微信小程序上线,这是由工信部电子工业标准化研究院指导和推荐的生僻字提交入口。狄耐克股份有限公司杭州网货交易会用户在微信中...
日期:10-02
pcie3.0和4.0硬盘「只需4年 PCIe 7.0硬盘有望追上DDR5内存:性能狂飙」
快科技6月17日消息,PCIe 5.0去年开始进入市场,下一代PCIe 6.0明年有望问世,现在PCI-SIG组织已经在考虑PCIe 7.0标准了,带宽将继续翻倍。目前标准到了0.3版草案的地步,技术上将沿...
日期:06-17
中国电信电商采购平台供应商「中国电信与5家国际供应商达成采购意向」
11月6日消息,在第五届中国国际进口博览会上,中国电信与诺基亚、爱立信、戴尔、AMD、三星等5家国际合作伙伴达成采购合作意向。采购范围涵盖数据和传输设备、固网终端、服务器...
日期:11-12
东方甄选官宣入淘开播,俞敏洪带队_东方甄选官宣入淘开播,俞敏洪带队去哪了
凤凰网科技讯 8月24日,东方甄选官宣,正式入驻淘宝开播。计划首秀定档8月29日,由俞敏洪带队,这也将是东方甄选第一次在抖音以外的平台开播。直播下半场,跨平台经营成大多MCN机构发...
日期:08-24
极光大数据:优惠比价app用户规模1.37亿  上海占比最高(【图解】极光大数据:2018年3月直播app行业研究报告)
  极光大数据(纳斯达克股票代码:JG)针对优惠比价app行业推出了市场洞察分析文章。优惠比价app是线上和实体购物信息的聚合平台,对于许多精打细算的消费者而言,一款好用的...
日期:07-20
泉城在线推出商务设交网站经纬网
泉城在线讯 泉城在线是济南地区地方门户社区,一直以最前沿的互联网创新而知名,昨日记者获悉,泉城在线已经开始内测了商务社交网站-经纬网,意在开发有质量的商务人士,建立在线商...
日期:07-26
社交平台 Reddit E 轮融资规模扩大至 3.7 亿美元,估值 60 亿美元
  北京时间 2 月 24 日下午消息,据报道,社交新闻网站 Reddit 本月早些时候宣布了 2.5 亿美元的 E 轮融资,而他们最新提交给美国证券交易委员会(SEC)的文件显示,该公司现在又...
日期:07-16
上百度约核酸立减6元,便捷更省钱
  临近春节,越来越多的“打工人”开始计划返乡。但很多人由于工作忙等原因无暇顾及研究核酸检测流程,急匆匆赶到医院,结果发现没预约做不了。别急,这里有一份核酸检测攻略,手...
日期:07-16
第二届中韩创新大赛邀你来战(中韩舞蹈大赛)
  创新风云际会,威海春潮涌动。推进新旧动能转换重大工程建设,是山东省委省政府的战略部署;以创新驱动引领动能转换,是时代赋予我们的使命和担当。   深耕日韩,打造对外开...
日期:02-12
QuestMobile发布移动互联网实力价值榜,百度输入法月活超4亿持续领跑行业
  国内权威数据公司QuestMobile于10月29日发布《2019中国移动互联网秋季大报告》(以下称简称《报告》)。《报告》显示,百度输入法9月MAU(月活跃用户人数)超4亿,位于用户规...
日期:10-17
灌篮高手将拍成电影是全国大赛吗「豆瓣9.1分!电影《灌篮高手》票房破2亿:全国大赛你看哭没?」
4月21日消息,据灯塔专业版数据显示,电影《灌篮高手》上映2天,内地总票房突破2亿元,这一票房表现打破了多项日本动画电影在中国影史的票房纪录。截稿前,《灌篮高手》豆瓣评分依然...
日期:04-22