您的位置:首页 > 互联网

英特尔通过软硬件为LIama 2大模型提供加速,持续发力推动AI发展_英特尔娘

发布时间:2023-07-25 15:53:21  来源:互联网     背景:

通信世界网消息(CWW)英特尔广泛的AI硬件组合及开放的软件环境,为Meta发布的Llama 2模型提供了极具竞争力的选择,进一步助力大语言模型的普及,推动AI发展惠及各行各业。

大语言模型(LLM)在生成文本、总结和翻译内容、回答问题、参与对话以及执行复杂任务(如解决数学问题或推理)方面表现出的卓越能力,使其成为最有希望规模化造福社会的AI技术之一。大语言模型有望解锁更丰富的创意和洞察,并激发AI社区推进技术发展的热情。

Llama 2旨在帮助开发者、研究人员和组织构建基于生成式AI的工具和体验。Meta发布了多个Llama 2的预训练和微调版本,拥有70亿、130亿和700亿三种参数。通过Llama 2,Meta在公司的各个微调模型中采用了三项以安全为导向的核心技术:安全的有监督微调、安全的目标文本提取以及安全的人类反馈强化学习(RLHF)。这些技术相结合,使Meta得以提高安全性能。随着越来越广泛的使用,人们将能够以透明、公开的方式不断识别并降低生成有害内容的风险。

英特尔致力于通过提供广泛的硬件选择和开放的软件环境,推动AI的发展与普及。英特尔提供了一系列AI解决方案,为AI社区开发和运行Llama 2等模型提供了极具竞争力和极具吸引力的选择。英特尔丰富的AI硬件产品组合与优化开放的软件相结合,为应对算力挑战提供了可行的方案。

“英特尔提供了满足模型的开发和部署的AI优化软件。开放生态系统是英特尔得天独厚的战略优势,在AI领域亦是如此。我们致力于培育一个充满活力的开放生态系统来推动AI创新,其安全、可追溯、负责任以及遵循道德,这对整个行业至关重要。此次发布的大模型进一步彰显了我们的核心价值观——开放,为开发人员提供了一个值得信赖的选择。Llama 2模型的发布是我们行业向开放式AI发展转型迈出的重要一步,即以公开透明的方式推动创新并助力其蓬勃发展。”

在Llama 2发布之际,我们很高兴地分享70亿和130亿参数模型的初始推理性能测试结果。这些模型在英特尔AI产品组合上运行,包括Habana®Gaudi®2深度学习加速器、第四代英特尔®至强®可扩展处理器、英特尔®至强®CPU Max系列和英特尔®数据中心GPU Max系列。我们在本文中分享的性能指标是我们当前软件提供的“开箱即用”的性能,并有望在未来的软件中进一步提升。我们还支持700亿参数模型,并将很快分享最新相关信息。

Habana®Gaudi®2深度学习加速器

Habana Gaudi2旨在为用户提供高性能、高能效的训练与推理,尤其适用于诸如Llama和Llama 2的大语言模型。Gaudi2加速器具备96GB HBM2E的内存容量,可满足大语言模型的内存需求并提高推理性能。Gaudi2配备Habana®SynapseAI®软件套件,该套件集成了对PyTorch和DeepSpeed的支持,以用于大语言模型的训练和推理。此外,SynapseAI近期开始支持HPU Graphs和DeepSpeed推理,专门针对时延敏感度高的推理应用。Gaudi2还将进行进一步的软件优化,包括计划在2023年第三季度支持FP8数据类型。此优化预计将在执行大语言模型时大幅提高性能、吞吐量,并有效降低延迟。

大语言模型的性能需要灵活敏捷的可扩展性,来突破服务器内以及跨节点间的网络瓶颈。每张Gaudi2芯片集成了21个100Gbps以太网接口,21个接口专用于连接服务器内的8颗Gaudi2,该网络配置有助于提升服务器内外的扩展性能。

在近期发布的MLPerf基准测试中,Gaudi2在大语言模型上展现了出色的训练性能,包括在384个Gaudi2加速器上训练1750亿参数的GPT-3模型所展现的结果。Gaudi2经过验证的高性能使其成为Llama和Llama 2模型训练和推理的高能效解决方案。

图1显示了70亿参数和130亿参数Llama 2模型的推理性能。模型分别在一台Habana Gaudi2设备上运行,batch size=1,输出token长度256,输入token长度不定,使用BF16精度。报告的性能指标为每个token的延迟(不含第一个)。该测试使用optimum-habana文本生成脚本在Llama模型上运行推理。optimum-habana库能够帮助简化在Gaudi加速器上部署此类模型的流程,仅需极少的代码更改即可实现。如图1所示,对于128至2000输入token,在70亿参数模型上Gaudi2的推理延迟范围为每token 9.0-12.2毫秒,而对于130亿参数模型,范围为每token 15.5-20.4毫秒。

图1 基于Habana Gaudi2,70亿和130亿参数Llama 2模型的推理性能

英特尔®至强®可扩展处理器

第四代英特尔至强可扩展处理器是一款通用计算处理器,具有英特尔®高级矩阵扩展(英特尔®AMX)的AI加速功能。具体而言,该处理器的每个核心内置了BF16和INT8通用矩阵乘(GEMM)加速器,以加速深度学习训练和推理工作负载。此外,英特尔®至强®CPU Max系列,每颗CPU提供64GB的高带宽内存(HBM2E),两颗共128GB,由于大语言模型的工作负载通常受到内存带宽的限制,因此,该性能对于大模型来说极为重要。

目前,针对英特尔至强处理器的软件优化已升级到深度学习框架中,并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI库的默认发行版。英特尔主导了torch.compile CPU后端的开发和优化,这是PyTorch 2.0的旗舰功能。与此同时,英特尔还提供英特尔®PyTorch扩展包*(Intel®Extension for PyTorch*),旨在PyTorch官方发行版之前,尽早、及时地为客户提供英特尔CPU的优化。

第四代英特尔至强可扩展处理器拥有更高的内存容量,支持在单个插槽内实现适用于对话式AI和文本摘要应用的、低延迟的大语言模型执行。对于BF16和INT8,该结果展示了单个插槽内执行1个模型时的延迟。英特尔®PyTorch扩展包*支持SmoothQuant,以确保INT8精度模型具有良好的准确度。

考虑到大语言模型应用需要以足够快的速度生成token,以满足读者较快的阅读速度,我们选择token延迟,即生成每个token所需的时间作为主要的性能指标,并以快速人类读者的阅读速度(约为每个token 100毫秒)作为参考。如图2、3所示,对于70亿参数的Llama2 BF16模型和130亿参数的Llama 2 INT8模型,第四代英特尔至强单插槽的延迟均低于100毫秒。

得益于更高的HBM2E带宽,英特尔至强CPU Max系列为以上两个模型提供了更低的延迟。而凭借英特尔AMX加速器,用户可以通过更高的批量尺寸(batch size)来提高吞吐量。

图2 基于英特尔至强可扩展处理器,70亿参数和130亿参数Llama 2模型(BFloat16)的推理性能

苹果应用商店广告投放

图3 基于英特尔至强可扩展处理器,70亿参数和130亿参数Llama 2模型(INT8)的推理性能

英特尔娘

对于70亿和130亿参数的模型,每个第四代至强插槽可提供低于100毫秒的延迟。用户可以分别在两个插槽上同时运行两个并行实例,从而获得更高的吞吐量,并独立地服务客户端。亦或者,用户可以通过英特尔®PyTorch扩展包*和DeepSpeed*CPU,使用张量并行的方式在两个第四代至强插槽上运行推理,从而进一步降低延迟或支持更大的模型。

英特尔®数据中心GPU Max系列

picoVR一体机

英特尔数据中心GPU Max系列提供并行计算、科学计算和适用于科学计算的AI加速。作为英特尔性能最为出色、密度最高的独立显卡,英特尔数据中心GPU Max系列产品中封装超过1000亿个晶体管,并包含多达128个Xe内核,Xe是英特尔GPU的计算构建模块。

英特尔数据中心GPU Max系列旨在为AI和科学计算中使用的数据密集型计算模型提供突破性的性能,包括:

· 408 MB基于独立SRAM技术的L2缓存、64MB L1缓存以及高达128GB的高带宽内存(HBM2E)。

· AI增强型的Xe英特尔®矩阵扩展(英特尔®XMX)搭载脉动阵列,在单台设备中可实现矢量和矩阵功能。

英特尔Max系列产品统一支持oneAPI,并基于此实现通用、开放、基于标准的编程模型,释放生产力和性能。英特尔oneAPI工具包括高级编译器、库、分析工具和代码迁移工具,可使用SYCL轻松将CUDA代码迁移到开放的C++。

rtx 3090 历史价格

英特尔数据中心Max系列GPU通过当今框架的开源扩展来实现软件支持和优化,例如面向PyTorch*的英特尔扩展、面向TensorFlow*的英特尔®扩展和面向DeepSpeed*的英特尔®扩展。通过将这些扩展与上游框架版本一起使用,用户将能够在机器学习工作流中实现快速整合。

我们在一个600瓦OAM形态的GPU上评估了Llama 2的70亿参数模型和Llama 2的130亿参数模型推理性能,这个GPU上封装了两个tile,而我们只使用其中一个tile来运行推理。图4显示,对于输入长度为32到2000的token,英特尔数据中心GPU Max系列的一个tile可以为70亿参数模型的推理提供低于20毫秒的单token延迟,130亿参数模型的单token延迟为29.2-33.8毫秒。因为该GPU上封装了两个tile,用户可以同时并行运行两个独立的实例,每个tile上运行一个,以获得更高的吞吐量并独立地服务客户端。

图4 英特尔数据中心GPU Max 1550上的Llama 2的70亿和13亿参数模型的推理性能

亚马逊prime会员折扣规则

关于在英特尔GPU平台上运行大语言模型和Llama 2,可以点击此处获取详细信息。目前英特尔开发者云平台上已发布英特尔GPU Max云实例测试版。

英特尔平台上的大语言模型微调

除了推理之外,英特尔一直在积极地推进微调加速,通过向Hugging FaceTransformers、PEFT、Accelerate和Optimum库提供优化,并在面向Transformers的英特尔®扩展中提供参考工作流。这些工作流支持在相关英特尔平台上高效地部署典型的大语言模型任务,如文本生成、代码生成、完成和摘要。


返回网站首页

本文评论
这些品牌客单价3000,为什么能在快手爆单?「快手的货源为什么便宜」
声明:本文来自于微信公众号 刀姐doris(ID:doriskerundong),作者:楚晴,授权转载发布。大家有没有发现,直播电商“狂飙”的这几年,所有人的节奏不知不觉中都变得更快了。从技术上来...
日期:04-14
中国电信卫星公司携手中兴通讯及产业合作伙伴率先完成国内首次5G NTN手机直连卫星外场验证
通信世界网消息(CWW)近日,中国电信卫星公司携手中兴通讯、紫光展锐、vivo产业合作伙伴共同完成了国内首次5G NTN(non-terrestrial network,非地面网络)手机直连卫星外场验证,成功实...
日期:06-07
播放分钟数代替播放量、24年“盈亏平衡”:B站商业化“急了”?_bilibili分p播放量计算
声明:本文来自于微信公众号娱乐独角兽(ID:yuledujiaoshou),作者:Mia,授权转载发布。没有人能永远年轻,就连B站也不例外。成年人的世界注定满怀KPI的焦虑,今年以来,B站频频因“商业...
日期:07-05
华为与ICTV签协议 将建菲律宾全国性网络(华为菲律宾基站建设)
  据国外媒体报道,华为(微博)公司日前与菲律宾风险投资公司信息资本技术投资公司(ICTV)签署了一份谅解备忘录(MoU),为后者控股的下一代移动公司(Next Mobile)的全国性网络...
日期:07-22
苹果新出的macpro「十多年了 苹果新款Mac Pro依然不是中国制造:美泰联手组装」
快科技6月13日讯,尽管苹果深度依赖中国产业链,甚至绝大多数iPhone均在富士康中国工厂组装,但其最强电脑Mac Pro却是个例外,此前的2013年款和2019年款均是在位于美国的伟创力工厂...
日期:06-13
星环科技气象大数据为“黄金水道”航运安全保驾护航
  案例背景   上海市气象局是上海政府的专业管理部门,主要负责上海行政区域内的气象监测、天气预报、灾害性天气预警等工作。气象能见度是气象要素观测中的基本项目之一...
日期:08-27
快讯|特斯拉发布全球首本电池"护照"_特斯拉最新使用的电池厂家
【网易科技6月5日报道】特斯拉与Re|Source联盟和全球电池联盟(GBA)共同发布了世界上首本“电池护照”。这项"护照"旨在提供电池的详细信息,包括其来源、制造过程、技术规格、...
日期:06-06
亮相2023数智产业领袖峰会,卡奥斯登上中国数智赋能领航企业榜_数智未来创新峰会
亮相2023数智产业领袖峰会,卡奥斯登上中国数智赋能领航企业榜 三星galaxy s6 edge+屏幕多大iPhone 8售价...
日期:06-01
真来了!央视官宣王冰冰回归 11月20日亮相:网友齐围观最美记者_央视记者王冰冰的现场报道
现在,央视新闻大大方方的官宣了王冰冰,号称央视最美记者的她确实回归了。11月19日,央视官方也是发表了最新动态,正式官宣了王冰冰的回归,这也是时隔4个月王冰冰的名字再度被央视...
日期:11-20
首款下载量超10亿手游!《愤怒的小鸟》卖了:世嘉出价近70亿收购
快科技4月15日讯,曾经风靡全球的热门游戏《愤怒的小鸟》,卖了。iphone14数据线是typec接口吗从上述事实中,完全证实了地球和月球有相同的年龄来自华尔街的报道称,世嘉接近收购...
日期:04-15
北京农担引入电子合同服务,农民足不出户签署担保协议
  数字科技是农业金融创新中必不可少的应用,北京农担就通过引入上上签的电子合同服务,农企农户足不出户在线签署协议,从而快速获得生产资金支持。   从申请到放款只需2个...
日期:12-13
五月天2019鸟巢演唱会视频「五月天鸟巢演唱会场外大合唱:现场人山人海」
5月26日消息,众多歌迷聚集鸟巢外听五月天演唱会,现场人山人海,歌迷们一起大合唱,现场气氛超好。特斯拉semi卡车发布会据悉,歌迷们在场外一起大合唱了五月天的一首《突然好想你》,...
日期:05-27
爱立信王浩博:XR就绪网络推动XR产业发展_爱立信ceo离职
通信世界网消息(CWW)作为被寄予厚望的5G杀手级应用,XR的前景越来越清晰。从虚拟到现实,XR的发展正在让我们打破数字和现实世界的界限。XR的发展离不开终端和连接技术的不断进化...
日期:06-29
当贝超级盒子H1销量登顶,用户评价道出原因_当贝超级盒子h1上市时间
  近年来,电视盒子已经成为了人们家庭中不能少的一个产品,很多家里本来就有智能电视的家庭也会装一个电视盒子,来实现一些本来没有的功能,而电视盒子的功能也越来越多样,...
日期:05-22
特斯拉任命 Airbnb 联合创始人Joe Gebbia为独立董事_airbnb中国总裁
9月29日消息:特斯拉宣布,任命Airbnb(爱彼迎)联合创始人Joe Gebbia为独立董事。据了解,Gebbia现年41岁,他自愿放弃现金薪酬,在2023年7月之前不会接受任何股权激励。特斯拉周三在一...
日期:09-30
欠债男子被法官堵在孩子周岁宴上 曾欠人13万元被起诉
最近,江苏镇江句容市,一名男子杨某在宾馆为他的孩子庆祝周岁生日宴会时,江宁区的一名执行法官突然赶到宴会现场。原来,杨某之前曾用欠下13万元债务被起诉。氢能自行车价格今年二...
日期:03-07
iphone13pro远峰蓝色和石墨色对比「苹果 iPhone 14 / Pro 系列配色爆料:紫色将取代粉色和远峰蓝」
IT之家 8 月 31 日消息,一周后,苹果将为大家带来全新的 iPhone 14 和 iPhone 14 Pro 系列机型。Twitter 爆料者 @Jioriku 和 Naver 爆料者透露了一些关于新机的配色信息。基于...
日期:09-27
上半年A股人均赚3.9万!你赚了多少?_2020年股市人均赚钱
2023年已经过去了一半,你赚了多少钱?有没有投身股市?数据显示,截止2023年6月30日15地勘收盘,A股总市值为93.42万亿元,相比2022年底增加了8.54万亿元,增幅达10%。小米11pro主摄像素股...
日期:07-04
今年我国快递业务量已达600亿件 比去年少用34天「据报道,今年中国快递」
根据国家邮政局的监测数据,截至6月24日,今年我国的快递业务量已经达到了600亿件,比2019年用了172天少,比2022年用了34天少。6月份开始,全国各大电商平台纷纷开展年中促销活动,推动...
日期:06-25
华晨宝马是否停产「存隐患 华晨宝马召回17万辆国产5系汽车」
凤凰网科技讯 1月19日消息,天眼查App显示,近日,华晨宝马汽车有限公司向国家市场监督管理总局备案召回计划,决定自即日起,召回2019年9月2日至2020年12月26日生产的部分国产5系汽车...
日期:01-19