您的位置:首页 > 互联网

英伟达 agx「英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代AI怪兽诞生」

发布时间:2024-08-29 14:48:47  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】MLPerf Inference发布了最新测试结果,英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技,展现出明显的性能提升,甚至刷新了部分任务上的测试纪录。

大语言模型(LLM)推理是一个全栈挑战。

为了实现高吞吐量、低延迟的性能,不仅需要强大的GPU,还需要高带宽的芯片互连技术、高效的加速库以及高度优化的推理引擎。

就在刚刚,MLCommons发布了基准测试套件MLPerf Inference v4.1的最新测试结果,此次发布涵盖了专家混合(MoE)模型架构的首次评测结果,展示了与推理功耗相关的新发现。

MLCommons在最新的AI基准测试中添加了MoE模型

后勤工作数字化

MLPerf是一个流行且得到广泛认可的测试套件,以架构中立、具有代表性和可重复的方式提供机器学习系统的性能基准测试,每年更新两次

本轮测试的参赛者如下:

  • AMD MI300x加速器(已上市)

  • AMD EPYC Turin CPU(预览版)

  • Google Trillium TPUv6e加速器(预览版)

  • Intel Granite Rapids Xeon CPU(预览版)

  • NVIDIA Blackwell B200加速器(预览版)

  • UntetherAI SpeedAI240Slim(已上市)和SpeedAI240加速器(预览版)

Blackwell首秀大放异彩

其中,英伟达在这一轮测试中的提交带来了许多令人瞩目的结果。亮点包括:

  • 首次使用Blackwell 架构,相较于上一代的H100GPU,在Llama270B上实现高达4倍的性能提升

  • 针对每个数据中心的工作负载上,H200相较于H100的性能提升高达1.5倍

  • 得益于软件改进,H200在这一轮的提交相比上一轮的预览版本,性能提升高达27%

  • 首次使用Triton推理服务器提交Llama270B,性能与TensorRT-LLM相似

  • 在边缘推理类中,相较于上一轮使用Jetson AGX Orin平台的结果,本轮GPT-J基准测试中的性能提升高达6.2倍

Blackwell架构首次亮相还要追溯到今年3月的GTC大会上。这个还没投入量产的最新款芯片由2080亿个晶体管构成,采用台积电为英伟达量身定制的4nm工艺,是有史以来最大的GPU。

此外,Blackwell架构还配备了第二代Transformer引擎,结合了新的Blackwell Tensor Core技术和TensorRT-LLM创新,能够实现快速且精确的FP4AI推理。

本轮MLPerf是英伟达首次提交Blackwell。在Llama270B模型上测试时,B200GPU的token吞吐量比H100GPU高出了4倍。

对于参数量更大的模型,比如1.8T的GPT-MoE,Blackwell的优势更加明显,相比H100甚至实现了30×的性能提升。

为何如此之强?

Blackwell成功的原因之一就是使用4位浮点精度(FP4)运行模型。

事实上,减少浮点数的位数也一直是提高推理效率的常用手段,H100就引入了FP8精度,而这次Blackwell更是在MLPerf提交中创下了浮点位数新低。

英伟达产品营销总监Dave Salvator表示,使用如此低精度数字的最大挑战是保持准确性,为此,团队在软件方面进行了重大创新。

Blackwell成功的另一个重要因素是——内存带宽几乎翻倍,达到8TB/s;相比之下,H200为4.8TB/s。

虽然本次Blackwell仅以单芯片形式提交,但Salvator表示,它是为GPU网络和扩展而生的,与英伟达的NVLink互连技术结合可以呈现最佳效果。

Blackwell GPU支持多达18个NVLink同时以100GB/s带宽的连接,达到的总带宽就是1.8TB/s,大约是H100互连带宽的两倍。

H200性能再获提升

H200GPU采用了业界最快的AI内存技术——HBM3e。与H100相比,容量提高了1.8倍,带宽提高了1.4倍,十分利于内存敏感的应用场景。

李彦宏谈人工智能革命

H200在各模型上的测试结果,其中Llama270B使用功率为1000W的H200,其他结果均使用700W的H200

Llama270B

MLPerf在上一轮测试中首次引入Llama270B模型,代表流行的70B级别的参数稠密型LLM。

仅通过TensorRT-LLM的软件改进,H200运行Llama270B模型的性能就比前一轮的预览提交提高了多达14%。

本轮的关键改进包括XQA内核优化以及额外的层融合。

通过使用定制的散热解决方案,H200的热设计功耗 (TDP) 提高到了1000W,使得Llama270B基准测试的性能相比700W的H200额外提高了多达12%。

本轮中,英伟达还提交了使用 H200GPU运行Triton推理服务器的结果,表现与单机提交相似。

在Triton推理服务器的加持下,部署模型时无需在功能和性能之间进行取舍

从结果中可以看出,通过更广泛的模型级优化,可以实现性能的提升。

英伟达 agx

sd卡和mmc卡

首先,应用深度剪枝和宽度剪枝,智能地移除对整体模型输出不太重要的层和MLP中间维度,大大减少了参数总数。

然后,为了恢复准确性,使用MLPerf OpenORCA开发数据集对模型进行了微调。

最终,剪枝后的模型有32层和14,336个MLP中间维度,相比原始模型的80层和28,672个中间维度有了显著减少。

虽然模型的准确率略低于99%的阈值,但体量显著变小,使得离线吞吐量高达11,189token/s,几乎是封闭组中其他模型吞吐量的3倍。

Mixtral8x7B

本轮MLPerf新增了Mixtral8x7B模型的工作负载,采用MoE架构,共包含8个专家,总参数量为46.7B,每个token使用2个专家和12.9B参数。

英伟达提交了H100和H200GPU使用TensorRT-LLM 软件以FP8精度运行Mixtral8x7B的结果。

Stable Diffusion XL

在本轮中,H200的性能提高到每秒生成两张图像,与上一轮相比提升了27%,刷新了本项基准测试的纪录。

这些性能提升主要归功于对软件栈的几项关键优化,包括:

  • UNet FP8支持:使用了TensorRT 优化器,在FP8精度下满足了准确性要求,在Hopper GPU的逐轮性能提升中占据比例最大

  • VAE INT8支持:将某些层量化为INT8,其他层则量化为FP16,相比于上一轮使用的FP32实现了70%的性能提升,以及约4%的端到端速度提升

变分自编码器(VAE)批分割:SDXL管道中的VAE部分需要非常大的内存占用。通过采用批分割,将批大小从8增加到64,从而提高了性能

此外,在开放组提交中,英伟达结合了上述优化和LCM,将封闭组离线吞吐量在H200上加速了近5倍,达到每秒11个样本。

Jetson AGX Orin巨大飞跃

broadcast 英伟达

边缘的GenAI模型可以将传感器数据(如图像和视频)转化为具有强大上下文感知能力的实时可执行结果。

在英伟达软件栈的支持下,Jetson AGX Orin瞄准在边缘运行Transformer模型,如GPT-J、视觉 Transformer和Stable Diffusion,为边缘的生成式AI提供了高计算性能、大容量统一内存和全面的软件支持。

通过广泛的软件优化,在GPT-J6B模型的基准测试中,吞吐量提高了多达6.2倍,延迟改善了2.4倍。

这种性能提升得益于对TensorRT-LLM的众多软件优化,包括使用运行中批处理以及INT4激活感知权重量化(AWQ)。

AWQ将1%的重要权重用更高精度的FP16存储,但其余权重被量化为INT4精度,显著减少了内存占用,使得GPU可以一次处理更多数据批,大幅提高推理吞吐量。

AI推理,竞争白热化

虽然英伟达GPU 在AI训练方面的主导地位仍无可争议,而且新款Blackwell芯片的绝对性能很难被超越;但AI推理领域竞争对手正在迎头赶上,特别是在能效方面。

天津有几家苹果店

就像奥运会一样,MLPerf设置了许多类别,其中提交数量最多的是数据中心封闭组。

封闭组别(与开放相对)要求提交者在给定模型上按原样运行推理,而不进行重大软件修改。

数据中心组着重测试大量查询处理的能力,而边缘组侧重于最小化延迟。

每个类别包含9个不同的基准测试,针对不同类型的AI任务,包括流行的用例,如图像生成(类似Midjourney)和LLM问答(类似ChatGPT),以及同样重要但不太知名的任务,如图像分类、物体检测和推荐引擎。

本轮比赛新增了一个名为混合专家的基准测试,这是LLM部署中的一个增长趋势,其中一个模型被分解为几个较小的、独立的模型,分别针对特定任务进行微调,如常规对话、解决数学问题和协助编程。

推理时,模型可以将用户输入的查询定向到相应的专家模型。

MLPerf推理工作组主席兼AMD技术组高级成员Miroslav Hodak表示,这种方法允许每个查询使用更少的资源,从而降低成本并提高吞吐量。

在数据中心封闭组中,每个基准测试的获胜者仍然是英伟达的H200GPU和GH200超级芯片。然而,仔细查看性能结果,就会发现更复杂的情况。

其中有些提交结果使用了多个芯片,有些则只使用了单个芯片;GH200芯片则是将GPU和CPU集成在同一封装中。

如果将每个提交结果的查询吞吐量按加速器数量进行归一化,且仅保留每种加速器类型的最佳成绩,则会出现一些有趣的细节。(需要注意的是,这种方法忽略了CPU和GPU互连技术的作用)

按每个加速器计算,英伟达的Blackwell在LLM问答任务上比所有以前的芯片高出2.5倍。

Untether AI的speedAI240Preview芯片在其唯一提交的图像识别任务中几乎与H200的表现持平。

相比之下,谷歌的Trillium的图像生成能力仅为H100和H200的一半多一点,而AMD的Instinct在LLM问答任务上与H100大致相当。

英伟达 aic

AMD MI300X打平H100,但H200快了40%

在纸面参数上,MI300X比H100和H200拥有更大的HBM容量和带宽(MI300X拥有192GB和5.2TB/s,而H200为141GB和4.8TB/s),且FLOPS也略高一些。

理论上,192GB足以在一个芯片上容纳整个Llama2-70B模型加上KV缓存,从而避免了将模型分割到多个GPU上带来的网络开销。

但在运行实际AI工作负载时,它并没有实现对H100的超越(差距在3-4%以内),相比于H200141GB则落后约30-40%。

Untether.ai展示高能效推理方法

众所周知,ASIC可以提供更高效的AI推理能力,但不如GPU那样全能。

不过,Untether.ai似乎打破了这个魔咒。

在Resnet-50上,SpeedAI240系列有着十分出色的能效表现——性能与H100-NV相当,但功耗要则低得多。

那么,Untether平台在LLM上的表现如何呢?

很遗憾,工程师并没能赶上MLPerf的DDL。不过,他们在完成了BERT基准测试的优化之后,还是把结果分享了出来。

同样,性能与H100-NVL相当,但在能效上具有超过3倍的优势。

Cerebras和Furiosa没参赛,但发了新芯片

AI芯片初创Cerebras的理念非常简单粗暴——把芯片做大到硅晶圆所能承载的极限,进而避免芯片之间的互连,并大幅提高设备的内存带宽。

虽然这次没有提交MLPerf测试,但Cerebras表示,自家平台在每秒token的生成上,要比H100快7倍、比Groq快2倍。

对此,首席执行官兼联合创始人Andrew Feldman表示:今天我们处于生成式AI的拨号时代,这是因为存在内存带宽瓶颈。无论是H100。还是MI300或TPU,它们都使用相同的片外内存,并产生相同的限制。我们突破了这一点,因为我们是晶圆级的。

另一家初创Furiosa则发布了基于张量收缩处理器(TCP)架构的第二代芯片RNGD(读作renegade)。

AI工作负载中的基本操作是矩阵乘法,通常作为硬件中的原语实现。然而,矩阵(一般称为张量)的大小和形状会有很大的差异。而RNGD则将这种更广义的矩阵——张量乘法作为原语来实现。

根据内部的测试,Furiosa在性能上与英伟达L40S芯片相当,且功耗仅为185瓦,相比之下,L40S则高达320瓦。

与此同时,IBM也发布了他们的Spyre芯片,用于企业生成式AI工作负载,预计将在2025年第一季度上市。

可以说,AI推理芯片的竞争是越来越激烈了。如此看来,这个市场在短时间内绝对会非常精彩。

参考资料:

https://spectrum.ieee.org/new-inference-chips

https://www.forbes.com/sites/karlfreund/2024/08/28/amd-narrows-the-gap-with-nvidia-in-new-mlperf-benchmarks/

https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/

https://venturebeat.com/ai/mlcommons-mlperf-inference-4-1-benchmarks-moe-model-as-nvidia-blackwell-makes-its-testing-debut/

https://mlcommons.org/2024/08/mlperf-inference-v4-1-results/


返回网站首页

本文评论
“钓鱼执法”大成功:iOS 17 内部爆料人士被苹果抓获
IT之家 5 月 11 日消息,爆料人analyst941 此前泄露了大量关于苹果 iOS 17 的细节,但根据最新报道,他们的内幕消息人士在一次行动中被苹果抓获。据报道,消息人士已被苹果解雇,并将...
日期:05-11
大招频出,各大电商平台的商家争夺战已然升级
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。这场关于中小商家的争夺战,本质是市场竞争充分所致。此前在今年年初,京东方面便推出了“春晓计划...
日期:10-09
360安全卫士、360杀毒获“网友最喜爱安全软件”奖_360杀毒与360安全卫士
  软件好不好,用户说了算!在近日揭晓的华军软件园“2010年我最喜爱的软件”评选活动中,超过160万记网友投票选出了当前最受欢迎的电脑软件。其中,360安全卫士包揽“安全维护...
日期:07-26
“科创中国”平台携手西咸新区发布“揭榜挂帅”项目_网易科技_西咸新区科技创新引领轴
(原标题:“科创中国”平台携手西咸新区发布“揭榜挂帅”项目)     近日,“科创中国”平台携手“科创中国”试点城市(西咸新区)...
日期:10-30
胡润报告:中国拥有千亿资产的家庭达13.3万户 富裕家庭门槛600万资产
3月19日消息,胡润研究院发布《2023胡润财富报告》显示,中国拥有千亿资产的家庭达13.3万户。报告显示:截至2023年1月1日,中国拥有600万资产的富裕家庭”数量已经达到514万户,比上...
日期:03-19
戴尔1440笔记本内存条升级「戴尔1440笔记本」
戴尔 1440 笔记本是一款以高性价比为主打的笔记本电脑,它具有高性能、便携、易用等特点,深受广大用户的喜爱。下面将从外观、性能、屏幕、电池以及价格等方面,来详细介绍这款笔...
日期:05-31
倒计时30天!2023世界人工智能大会主题和主视觉发布!
  2023世界人工智能大会将于7月6-8日在上海举办,以“智联世界;生成未来”为主题,聚焦通用人工智能发展,营造良好创新生态,拥抱智能新时代,共话产业新未来。大会将继续发挥“科...
日期:06-07
ReplaceAnything官网体验入口 AI人工智能换脸免费在线使用地址_ai人工智能换脸技术视频
ReplaceAnything是一款基于人工智能的面部替换平台,专为那些希望恢复照片中人物年轻面容的用户设计。不论是恢复旧照片的色彩,还是为逝去的亲人在照片中留下年轻的影像,Replace...
日期:01-12
美国联邦选举委员会可能会在2024年选举前限制政治广告使用AI
本文概要:小米集团股东锐龙7 5800U笔记本vivo x fold灰色什么时候有货1. 美国联邦选举委员会可能会制定规则,限制人工智能生成的内容在政治广告中的使用。2. 倡导组织 “公共...
日期:08-11
阿里注资的企业_阿里巴巴10亿注资一淘
     阿里巴巴(微博)集团旗下购物搜索一淘网昨日宣布,将向所有电子商务网站开放用户资源。同时,阿里巴巴集团将向一淘投入10亿元,帮助购物网站推广,并获取外部流量。   ...
日期:07-24
司机高架上开车睡着吓坏路过车辆 时速60迈:头枕车窗自动驾驶让人担忧
快科技12月19日消息,据国内媒体报道称,上海一名司机在高架上开车时疑似睡着,引起了路过车辆的担忧。小米手机小爱同学什么音色好听拍摄者表示,当时他正在高架上行驶,左右观察车况...
日期:12-19
百度文心一言专业版测试申请入口 专业版邀请码获取方法_百度文心官网
百度文心一言专业版现在已经开始测试,用户可以直接申请专业版的测试资格,以下我们来看下具体如何获得专业版的邀请码。【文心一言专业版邀测】活动规则您可通过点击文心一言官...
日期:10-31
曝vivo V29手机将于9月7日全球上市:搭载骁龙 778G、4600mAh 电池
据爆料者 Paras Guglani 透露,vivo V29 5G 手机将于 9 月 7 日在全球上市,该机已经开始在欧洲市场以及菲律宾和印度尼西亚等东南亚国家推出。vivo V29 是一款基于 5 月在中国...
日期:09-05
2600万张矿卡何去何从?矿工玩家和厂商都头疼,没有谁是赢家_矿卡 矿难
如果说一张RTX 3080的矿卡卖3000元,那么有没有玩家购买呢?我们估计玩家想必会说疯了吧?按照现在这个行情,我们已经能在4000元的价位上买到全新的RTX 3080,为什么要花3000元去买矿...
日期:08-18
谷歌最新人工智能 alphafold「Google推出针对Google Workspace的人工智能驱动安全增强功能」
8月24日 消息:随着企业加速云迁移,如何保障云端数据安全性日益成为首要考虑因素。日前,谷歌宣布将大幅增强Google Workspace产品的安全能力,特别是利用人工智能防止企业云数据...
日期:08-24
MWC 2024 | 中国移动发布5G-A商用计划和十大创新成果_中国移动发布的5g+aicde
通信世界网消息(CWW)2月26日,在2024年世界移动通信大会期间,中国移动宣布2024年将在超过300个国内城市启动全球规模最大的5G-A商用部署,并联合全球产业合作伙伴重磅发布5G-A十大...
日期:02-27
2021京东双十一买手机「双11京东手机销量榜出炉,华为Mate60遗憾落榜,国产手机第一易主」
双11终于结束了,各大手机厂商的表现如何?有数据有真相!根据京东发布的双11手机销量榜来看,华为Mate60系列遗憾落榜,iPhone15系列靠“价格战”,抢占了不少市场份额!但令人惊喜的是,国...
日期:11-14
五一档总票房破15亿元 哪些上市公司赚到了?_五一档电影股票
摘要:五一档总票房破15亿元背后,有中国电影(SH:600977)、阿里影业(HK:01060)、猫眼娱乐(HK:01896)、万达电影(SZ:002739)等上市公司的身影。 【】五一档收官。今日,国家电影局...
日期:05-07
腾讯桌面最新版_腾讯桌面产品齐上阵 长假生活精彩纷呈
  十一国庆长假,每个人都有着自己的七天假期生活,无论是回家、旅游亦或是做个宅客,相信一定会碰到许多好玩的趣事,长假归来自然免不了要和好友分享属于自己的那份快乐!独乐乐...
日期:07-23
加价90万!特斯拉Cybertruck最新拍卖价格已超150万元_特斯拉84.7万元
快科技4月8日消息,据媒体报道,一台特斯拉创始版野兽Cybertruck今日在海外进行了拍卖。据悉,该车截止目前已出价到了24.2万美元,约合人民币155.37万元。今日头条内容运营值得一提...
日期:04-08