您的位置:首页 > 互联网

英特尔助力Llama 2大模型普及,推动AI发展惠及各行各业「英特尔规划」

发布时间:2023-07-25 17:03:48  来源:互联网     背景:

英特尔广泛的AI硬件组合及开放的软件环境,为Meta发布的Llama2 模型提供了极具竞争力的选择,进一步助力大语言模型的普及,推动AI发展惠及各行各业。

大语言模型(LLM)在生成文本、总结和翻译内容、回答问题、参与对话以及执行复杂任务(如解决数学问题或推理)方面表现出的卓越能力,使其成为最有希望规模化造福社会的AI技术之一。大语言模型有望解锁更丰富的创意和洞察,并激发AI社区推进技术发展的热情。

Llama2 旨在帮助开发者、研究人员和组织构建基于生成式AI的工具和体验。Meta发布了多个Llama2 的预训练和微调版本,拥有 70 亿、 130 亿和 700 亿三种参数。通过Llama 2,Meta在公司的各个微调模型中采用了三项以安全为导向的核心技术:安全的有监督微调、安全的目标文本提取以及安全的人类反馈强化学习(RLHF)。这些技术相结合,使Meta得以提高安全性能。随着越来越广泛的使用,人们将能够以透明、公开的方式不断识别并降低生成有害内容的风险。

英特尔致力于通过提供广泛的硬件选择和开放的软件环境,推动AI的发展与普及。英特尔提供了一系列AI解决方案,为AI社区开发和运行Llama2 等模型提供了极具竞争力和极具吸引力的选择。英特尔丰富的AI硬件产品组合与优化开放的软件相结合,为应对算力挑战提供了可行的方案。

英特尔提供了满足模型的开发和部署的AI优化软件。开放生态系统是英特尔得天独厚的战略优势,在AI领域亦是如此。我们致力于培育一个充满活力的开放生态系统来推动AI创新,其安全、可追溯、负责任以及遵循道德,这对整个行业至关重要。此次发布的大模型进一步彰显了我们的核心价值观——开放,为开发人员提供了一个值得信赖的选择。Llama2 模型的发布是我们行业向开放式AI发展转型迈出的重要一步,即以公开透明的方式推动创新并助力其蓬勃发展。

--李炜

英特尔软件与先进技术副总裁

兼人工智能和分析部门总经理

-- Melissa Evers

英特尔软件与先进技术副总裁

兼执行战略部总经理

在Llama2 发布之际,我们很高兴地分享 70 亿和 130 亿参数模型的初始推理性能测试结果。这些模型在英特尔AI产品组合上运行,包括Habana®Gaudi®2 深度学习加速器、第四代英特尔®至强®可扩展处理器、英特尔®至强®CPU Max系列和英特尔®数据中心GPU Max系列。我们在本文中分享的性能指标是我们当前软件提供的“开箱即用”的性能,并有望在未来的软件中进一步提升。我们还支持 700 亿参数模型,并将很快分享最 新相关信息。

Habana®Gaudi®2 深度学习加速器

Habana Gaudi2 旨在为用户提供高性能、高能效的训练与推理,尤其适用于诸如Llama和Llama2 的大语言模型。Gaudi2 加速器具备96GB HBM2E的内存容量,可满足大语言模型的内存需求并提高推理性能。Gaudi2 配备Habana®SynapseAI®软件套件,该套件集成了对PyTorch和DeepSpeed的支持,以用于大语言模型的训练和推理。此外,SynapseAI近期开始支持HPU Graphs和DeepSpeed推理,专门针对时延敏感度高的推理应用。Gaudi2 还将进行进一步的软件优化,包括计划在 2023 年第三季度支持FP8 数据类型。此优化预计将在执行大语言模型时大幅提高性能、吞吐量,并有效降低延迟。

大语言模型的性能需要灵活敏捷的可扩展性,来突破服务器内以及跨节点间的网络瓶颈。每张Gaudi2 芯片集成了 21 个100Gbps以太网接口, 21 个接口专用于连接服务器内的 8 颗Gaudi2,该网络配置有助于提升服务器内外的扩展性能。

在近期发布的MLPerf基准测试中,Gaudi2 在大语言模型上展现了出色的训练性能,包括在 384 个Gaudi2 加速器上训练 1750 亿参数的GPT- 3 模型所展现的结果。Gaudi2 经过验证的高性能使其成为Llama和Llama2 模型训练和推理的高能效解决方案。

图 1 显示了 70 亿参数和 130 亿参数Llama2 模型的推理性能。模型分别在一台Habana Gaudi2 设备上运行,batch size=1,输出token长度256,输入token长度不定,使用BF16 精度。报告的性能指标为每个token的延迟(不含第 一个)。该测试使用optimum-habana文本生成脚本在Llama模型上运行推理。optimum-habana库能够帮助简化在Gaudi加速器上部署此类模型的流程,仅需极少的代码更改即可实现。如图 1 所示,对于 128 至 2000 输入token,在 70 亿参数模型上Gaudi2 的推理延迟范围为每token 9.0-12. 2 毫秒,而对于 130 亿参数模型,范围为每token 15.5-20. 4 毫秒1。

俄罗斯商家将进驻阿里巴巴吗

英特尔mas

图1基于Habana Gaudi2, 70 亿和 130 亿参数Llama2 模型的推理性能

若想访问Gaudi2,可在英特尔开发者云平台上注册一个实例,或联系超微(Supermicro)了解Gaudi2 服务器基础设施。

英特尔®至强®可扩展处理器

第四代英特尔至强可扩展处理器是一款通用计算处理器,具有英特尔®高 级矩阵扩展(英特尔®AMX)的AI加速功能。具体而言,该处理器的每个核心内置了BF16 和INT8 通用矩阵乘(GEMM)加速器,以加速深度学习训练和推理工作负载。此外,英特尔®至强®CPU Max系列,每颗CPU提供64GB的高带宽内存(HBM2E),两颗共128GB,由于大语言模型的工作负载通常受到内存带宽的限制,因此,该性能对于大模型来说极为重要。

目前,针对英特尔至强处理器的软件优化已升级到深度学习框架中,并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI库的默认发行版。英特尔主导了torch.compile CPU后端的开发和优化,这是PyTorch 2. 0 的旗舰功能。与此同时,英特尔还提供英特尔®PyTorch扩展包*(Intel®Extension for PyTorch*),旨在PyTorch官方发行版之前,尽早、及时地为客户提供英特尔CPU的优化。

第四代英特尔至强可扩展处理器拥有更高的内存容量,支持在单个插槽内实现适用于对话式AI和文本摘要应用的、低延迟的大语言模型执行。对于BF16 和INT8,该结果展示了单个插槽内执行 1 个模型时的延迟。英特尔®PyTorch扩展包*支持SmoothQuant,以确保INT8 精度模型具有良好的准确度。

考虑到大语言模型应用需要以足够快的速度生成token,以满足读者较快的阅读速度,我们选择token延迟,即生成每个token所需的时间作为主要的性能指标,并以快速人类读者的阅读速度(约为每个token100 毫秒)作为参考。如图2、 3 所示,对于 70 亿参数的Llama2 BF16 模型和 130 亿参数的Llama 2 INT8 模型,第四代英特尔至强单插槽的延迟均低于 100 毫秒2。

得益于更高的HBM2E带宽,英特尔至强CPU Max系列为以上两个模型提供了更低的延迟。而凭借英特尔AMX加速器,用户可以通过更高的批量尺寸(batch size)来提高吞吐量。

英特尔emib介绍

图2 基于英特尔至强可扩展处理器, 70 亿参数和 130 亿参数Llama2 模型(BFloat16)的推理性能

英特尔raja

图3 基于英特尔至强可扩展处理器, 70 亿参数和 130 亿参数Llama2 模型(INT8)的推理性能

对于 70 亿和 130 亿参数的模型,每个第四代至强插槽可提供低于 100 毫秒的延迟。用户可以分别在两个插槽上同时运行两个并行实例,从而获得更高的吞吐量,并独立地服务客户端。亦或者,用户可以通过英特尔®PyTorch扩展包*和DeepSpeed* CPU,使用张量并行的方式在两个第四代至强插槽上运行推理,从而进一步降低延迟或支持更大的模型。

关于在至强平台上运行大语言模型和Llama 2,开发者可以前往官网了解更多详细信息。第四代英特尔至强可扩展处理器的云实例可在AWS和Microsoft Azure上预览,目前已在谷歌云平台和阿里云全面上线。英特尔将持续在PyTorch*和DeepSpeed*进行软件优化,以进一步加速Llama2 和其它大语言模型。

英特尔®数据中心GPU Max系列

英特尔数据中心GPU Max系列提供并行计算、科学计算和适用于科学计算的AI加速。作为英特尔性能最为出色、密度最 高的独立显卡,英特尔数据中心GPU Max系列产品中封装超过 1000 亿个晶体管,并包含多达 128 个Xe内核,Xe是英特尔GPU的计算构建模块。

英特尔数据中心GPU Max系列旨在为AI和科学计算中使用的数据密集型计算模型提供突破性的性能,包括:

●408 MB基于独立SRAM技术的L2 缓存、64MB L1 缓存以及高达128GB的高带宽内存(HBM2E)。

●AI增强型的Xe英特尔®矩阵扩展(英特尔®XMX)搭载脉动阵列,在单台设备中可实现矢量和矩阵功能。

英特尔Max系列产品统一支持oneAPI,并基于此实现通用、开放、基于标准的编程模型,释放生产力和性能。英特尔oneAPI工具包括高 级编译器、库、分析工具和代码迁移工具,可使用SYCL轻松将CUDA代码迁移到开放的C++。

英特尔数据中心Max系列GPU通过当今框架的开源扩展来实现软件支持和优化,例如面向PyTorch*的英特尔扩展、面向TensorFlow*的英特尔®扩展和面向DeepSpeed*的英特尔®扩展。通过将这些扩展与上游框架版本一起使用,用户将能够在机器学习工作流中实现快速整合。

我们在一个 600 瓦OAM形态的GPU上评估了Llama2 的 70 亿参数模型和Llama2 的 130 亿参数模型推理性能,这个GPU上封装了两个tile,而我们只使用其中一个tile来运行推理。图 4 显示,对于输入长度为 32 到 2000 的token,英特尔数据中心GPU Max系列的一个tile可以为 70 亿参数模型的推理提供低于 20 毫秒的单token延迟, 130 亿参数模型的单token延迟为29.2-33. 8 毫秒3。因为该GPU上封装了两个tile,用户可以同时并行运行两个独立的实例,每个tile上运行一个,以获得更高的吞吐量并独立地服务客户端。

19款雷蛇灵刃标准版

英特尔mas

图4英特尔数据中心GPUMax 1550 上的Llama 2 的 70 亿和 130 亿参数模型的推理性能

关于在英特尔GPU平台上运行大语言模型和Llama 2,可以前往官网获取详细信息。目前英特尔开发者云平台上已发布英特尔GPU Max云实例测试版。

娭毑是什么意思

英特尔平台上的大语言模型微调

除了推理之外,英特尔一直在积极地推进微调加速,通过向Hugging Face Transformers、PEFT、Accelerate和Optimum库提供优化,并在面向Transformers的英特尔®扩展中提供参考工作流。这些工作流支持在相关英特尔平台上高效地部署典型的大语言模型任务,如文本生成、代码生成、完成和摘要。

总结

上述内容介绍了在英特尔AI硬件产品组合上运行Llama2 的 70 亿和 130 亿参数模型推理性能的初始评估,包括Habana Gaudi2 深度学习加速器、第四代英特尔至强可扩展处理器、英特尔®至强®CPU Max系列和英特尔数据中心GPU Max系列。我们将继续通过软件发布提供优化,后续会再分享更多关于大语言模型和更大的Llama2 模型的评估。


返回网站首页

本文评论
天狗吃月亮啥意思「今年首场“天狗吃月亮”5日登场:半影月食 我国可见全程」
五一假期即将过去,返程回去上班的可以收心了,不过接下来的两天还有个天象可看,那就是天狗吃月亮”,5日登场。据天文科普专家介绍,这是今年首场月食,而且是半影月食,届时月亮的脸色...
日期:05-03
小米正式宣布 Redmi Note12普及两亿像素
中关村在线消息:今天上午,小米正式开启Redmi Note12的预热,声称要带来两项帅炸天的技术。下午再次预热了两项帅炸天技术得人其中一项:两亿像素。金山办公暴跌现在进行1元预订,送1...
日期:10-21
马斯克建立火星城市_马斯克:希望20年内在火星建造自给自足城市
小米sos按5次没用一加6T上手体验,屏下指纹+夜景拍摄能够打动你吗?两个电话号码怎么申请两个微信   特斯拉和SpaceX公司CEO埃隆·马斯克周末重申,他坚定不移地致力于殖民火...
日期:08-17
遇害近50年后 美国“沙丘女士”身份之谜被DNA技术揭开「美国沙丘夫人案」
美国一具50年来没有确认身份的女尸,日前终于被FBI通过DNA基因谱系分析,确定了她名叫Ruth Marie Terry,死亡时仅37岁。iqoo neo7 搭载天玑9000 芯片苏宁易购的扫码活动是真的吗...
日期:11-12
小米长焦之王!13 Ultra塞进两颗长焦镜头「小米mix3长焦镜头」
快科技4月12日消息,博主数码闲聊站透露,和上一代小米12S Ultra相比,小米13 Ultra不仅塞进了潜望式长焦,还塞进了一颗直立人像中焦,是小米13系列中唯一一款配备双长焦方案的影像旗...
日期:04-12
荣耀Magic V2预约人数超6万 将于今晚发布「荣耀magic2定价」
7月12日 消息:荣耀Magic V2在京东自营店和各大非自营店的预约订单量已经突破了6.1万人,这一数据证明了该款手机在市场上的高度关注度和热度。中端芯片选天玑还是骁龙 看完就...
日期:07-12
联通合约iPhone_中国联通iphone 4合约新计划正式开始实施
  “4月12日起,16G版的iphone 4,原286元购机合约计划取消,改至386元起购。”本周二下午,记者从多方面证实了该消息,同时,前天有关内部人士亦告诉记者,新增iPhone套餐66元档已经...
日期:07-27
Google:Android以后将每年升级一次新版本_android版本可以更新吗
  来自国外媒体的报道,Google副总裁、Android项目负责人Andy Rubin近日在接受采访时分享了关于Android系统的一些消息,其中一项就是Android系统以后将会采取每年升级一次新...
日期:07-29
专家称中国人住房还是不够,盖空房算到人均居住面积有意义吗?
  在中国无论是大城市还是小城市,即便是县城里面,都在无限制的盖房子,可以说房子多到住都住不完,可是我们的人均居住面积还是很低,甚至都不如人口密集的日本。  首先,在上个...
日期:08-11
膝斩、降速、裁员,富途、长桥们也站在了十字路口
作者;|;王林;编辑;|;郑怀舟   来源:36氪   当风暴降临至淘金客,卖铲人亦不能幸免。   7月底,社交媒体再次传出跨境互联网券商裁员的消息。不久前的4月,在美团、快手、京东...
日期:08-18
特斯拉推出圣诞毛衣一分钟售罄 售价65美元_特斯拉活动衣服1套要多少钱
11月3日 消息:近日,特斯拉在美国官网推出了一款名为“Model X-mas Sweater”的毛衣。据悉,这款毛衣售价65美元,有XS S M L XL XXL3XL尺码可选。商品介绍显示,该毛衣带有S3XY汽车...
日期:11-10
美国怀俄明州公布面向“区块链银行”的加密托管规则
《美国怀俄明州公布面向“区块链银行”的加密托管规则》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮...
日期:08-01
支付宝被黑客入侵_数位用户遭遇“被捐款” 支付宝称或遇黑客攻击
  近日,有用户发帖称,自己的支付宝账户内无故失去六千多元,经查“从9月26日开始,莫名其妙地一笔一笔被捐到了‘绿化基金会’”。这名人士称,在网上一搜“支付宝用户被捐款”和...
日期:07-24
聊城智汇谷·阿里云创学院杭州游学 共话直播电商新业态
  随着技术的发展,直播行业迎来新机遇,直播电商这一新的商业模式发展势头强劲,已逐渐成为助力社会经济发展的新突破口。借着直播电商的东风,6月24日至26日,由聊城市高新区政府...
日期:12-08
soul 元宇宙「社交元宇宙Soul的眼泪」
声明:本文来自于微信公众号刺猬公社(ID:ciweigongshe),文|张静伦,编|园长,授权转载发布。第三次IPO,Soul还是不挣钱。“现在这个软件真的不是我们当初认识的那个软件了。以前的用户...
日期:05-20
中建三局第一建设工程有限责任公司信息化管理部总经理万会龙获InfoQ 2022中国数字经济灯塔奖数字
  1月22日,中国最大、最具影响力的技术社区InfoQ发布了年度重磅榜单——2020中国数字经济灯塔奖,中建三局第一建设工程有限责任公司信息化管理部(信息中心)总经理、数智...
日期:07-10
豆瓣8.0分!电影《忠犬八公》票房破亿:冯小刚主演「忠犬八公电影上映时间」
4月5日消息,截至今日11时46分,电影《忠犬八公》票房突破1亿,截稿前,该片豆瓣评分8.0,1.9万豆瓣观众打分,其中5星好评为30.5%,4星占44.5%。小米电视开不开机怎么回事儿生鲜电商新零...
日期:04-05
SNK侍魂系列新作《SAMURAI SHODOWN》入选EVO2019
  株式会社SNK宣布, 计划于2019年初夏发售的游戏新作《SAMURAI SHODOWN》(日本名称:SAMURAI SPIRITS)获选成为2019年8月2日至8月4日(当地时间/PST)在美国内华达州拉斯维加...
日期:07-03
小米9官方首降:骁龙855竞争压力大,自家红米K20 Pro太火(red米k20pro和小米9)
  最近要是选购骁龙855手机的话,简直不知道买哪款好了,不过其实每一款都不错,各有特色。就拿小米来说,先是有小米9这款手机上市,之后独立出去的红米也推出了一款红米K20 Pro,配...
日期:08-02
facebook注册人数_美前总统Facebook开户数小时粉丝达二万
  美国前总统乔治·W·布什6月2日正式成为全球知名社交网站Facebook的新会员。在注册后的短短数小时内,他便拥有了至少2.8万名“粉丝”。   布什在主页上写的第一篇文章...
日期:07-29