您的位置:首页 > 互联网

老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代_老黄核弹表情包

发布时间:2024-03-19 15:59:46  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】就在刚刚,老黄又来打破摩尔定律了:英伟达新核弹B200,一块能顶5个H100,30倍推理加速,能训万亿参数大模型!同时推出的AI推理微服务NIM,号称让全世界用上AI。

就在刚刚结束的GTC人工智能大会上,英伟达的新一代性能巨兽Backwell诞生了!

Blackwell B200GPU,是如今世界上最强大的AI芯片,旨在普惠万亿参数的AI。

本来,H100已经使英伟达成为价值数万亿美元的公司,赶超了谷歌和亚马逊,但现在,凭着Blackwell B200和GB200,英伟达的领先优势还要继续领先。

老黄表示——H100很好,但我们需要更大的GPU!

新的B200GPU,从2080亿个晶体管中能提供高达20petaflops的FP4性能。(H100仅为4petaflops)

而将两个B200与单个Grace CPU相结合的GB200,则可以为LLM推理工作负载提供30倍的性能,同时大大提高效率。

比起H100,GB200的成本和能耗降低了25倍!

Blackwell芯片和Hopper H100芯片的尺寸比较

这种额外的处理能力,就能让AI公司训练更大、更复杂的模型,甚至可以部署一个27万亿参数的模型。

更大的参数,更多的数据,未来的AI模型,无疑会解锁更多新功能,涌现出更多新的能力。

现在,老黄拿在手里的,或许是100亿美元。

新一代性能巨兽,深夜重磅登场

凭借H100成为全球市值第三大公司的英伟达,今天再次推出了性能野兽——Blackwell B200GPU和GB200超级芯片。

它以著名数学家David Blackwell(1919-2010)命名。他一生中对博弈论、概率论做出了重要的贡献。

老黄表示,30年来,我们一直在追求加速计算,目标是实现深度学习和AI等变革性突破。生成式AI已然成为我们这个时代的标志性技术,而Blackwell将是推动这场新工业革命的引擎。

我们认为这是个完美的博弈概率。

全新B200GPU拥有2080亿个晶体管,采用台积电4NP工艺节点,提供高达20petaflops FP4的算力。

与H100相比,B200的晶体管数量是其(800亿)2倍多。而单个H100最多提供4petaflops算力,直接实现了5倍性能提升。

而GB200是将2个Blackwell GPU和1个Grace CPU结合在一起,能够为LLM推理工作负载提供30倍性能,同时还可以大大提高效率。

值得一提的是,与H100相比,它的成本和能耗最多可降低25倍。

过去,训练一个1.8万亿参数的模型,需要8000个Hopper GPU和15MW的电力。

如今,2000个Blackwell GPU就能完成这项工作,耗电量仅为4MW。

在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。

GB200由2个GPU、1个CPU、一个主板组成

全新芯片其中一个关键改进是,采用了第二代Transformer引擎。

对每个神经元使用4位(20petaflops FP4)而不是8位,直接将算力、带宽和模型参数规模提高了一倍。

与此同时,英伟达还推出了第五代NVLink网络技术。

纳斯达克100指数购买建议

最新的NVLink迭代增强了数万亿参数AI模型的性能,提供了突破性的每GPU双向吞吐量,促进了无缝高速通信。

这也就是第二个关键区别,只有当你连接大量这些GPU时才会出现:新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。

这就要求英伟达打造一个全新的网络交换芯片,其中包含500亿个晶体管和一些自己的板载计算:拥有3.6teraflops FP8处理能力。

在此之前,由16个GPU组成的集群,有60%的时间用于相互通信,只有40%的时间用于实际计算。

Blackwell GPU增加了对FP4和FP6的支持

另外,Blackwell还配备了RAS引擎。

为了确保可靠性、可用性和可维护性,Blackwell GPU集成了专用引擎和基于AI的预防性维护功能,以最大限度地延长系统正常运行时间并最大限度地降低运营成本。

老黄表示,过去8年,计算规模扩展已经增加了1000倍。

网友:新的摩尔定律诞生了!

网友们纷纷惊叹,Blackwell再一次改变了摩尔定律。

英伟达高级科学家Jim Fan表示:Blackwell,城里的新野兽。

- DGX Grace-Blackwell GB200:单机架计算能力超过1Exaflop。

- 从这个角度来看:老黄交付给OpenAI的第一台DGX是0.17Petaflops。

- GPT-4-1.8T参数在2000张Blackwell上可在90天内完成训练。

新摩尔定律诞生了。

贾扬清回忆道,我记得在Meta,当我们在一小时内(2017年)训练ImageNet时,总计算量约为1exaflop。这意味着有了新的DGX,理论上你可以在一秒钟内训练ImageNet。

还有网友表示,这简直就是野兽,比H100强太多。

老黄核弹表情包

另有网友戏称,老黄确认GPT-4是1.8万亿参数。

所以,GB200的成本是多少呢?英伟达目前并没有公布。

此前据分析师估计,英伟达基于Hopper的H100芯片,每颗的成本在25,000美元到40,000美元之间,整个系统的成本高达200,000美元。

而GB200的成本,只可能更高。

新超算可训万亿参数大模型

当然,有了Blackwell超级芯片,当然还会有Blackwell组成的DGX超算。

这样,公司就会大量购入这些GPU,并将它们封装在更大的设计中。

GB200NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,可实现总计720petaflops的AI训练性能,或是1,440petaflops(1.4exaflops)的推理性能。

它内部共有5000条独立电缆,长度近两英里。

它的背面效果如下图所示。

机柜中的每个机架包含两个GB200芯片,或两个NVLink交换机。一共有18个GB200芯片托盘,9个NVLink交换机托盘有。

老黄现场表示,一个GB200NVL72机柜可以训练27万亿参数的模型。

此前传言称,GPT-4的参数规模达1.8万亿,相当于能训练近15个这样的模型。

与H100相比,对于大模型推理工作负载,GB200超级芯片提供高达30倍的性能提升。

那么,由8个系统组合在一起的就是DGX GB200。

总共有288个Grace CPU、576个Blackwell GPU、240TB内存和11.5exaflop FP4计算。

这一系统可以扩展到数万个GB200超级芯片,通过Quantum-X800InfiniBand(最多144个连接)或Spectrum-X800ethernet(最多64个连接)与800Gbps网络连接在一起。

配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。

傲腾内存 amd

除了第五代NVIDIA NVLink,该架构还包括NVIDIA Bluefield-3DPU,并将支持Quantum-X800InfiniBand网络。

这种架构可以为平台中的每个GPU提供高达每秒1,800GB的带宽。

除此之外,英伟达还发布了统一的超算平台DGX B200,用于AI模型训练、微调和推理。

它包括8个Blackwell GPU和2个第五代Intel Xeon处理器,包含FP4精度功能,提供高达144petaflops的AI性能、1.4TB的GPU内存和64TB/s的内存带宽。

这使得万亿参数模型的实时推理速度,比上一代产品提高了15倍。

用户还可以使用DGX B200系统构建DGX SuperPOD,创建人工智能卓越中心,为运行多种不同工作的大型开发团队提供动力。

目前,亚马逊、谷歌、微软已经成为最新芯片超算的首批用户。

亚马逊网络服务,将建立一个拥有20,000GB200芯片的服务器集群。

不只是一个芯片,更是一个平台

自从ChatGPT于2022年底掀起AI热潮以来,英伟达的股价已经上涨了五倍之多,总销售额增长了两倍多。

因为英伟达的GPU对于训练和部署大型AI模型至关重要,微软、Meta等大公司都已纷纷豪掷数十亿购买。

如今各大公司和软件制造商还在争先恐后地抢购Hopper H100等芯片呢,GB200就已经出了。

老黄表示,Blackwell不是一个芯片,而是一个平台的名称。

从此,英伟达不再是芯片供应商,而更像是微软、苹果这样的平台提供商,可以让其他公司在平台上构建软件。

英伟达副总裁Manuvir Das表示,GPU是可销售的商业产品,而软件,是为了帮人们用不同的方式使用GPU。

虽然英伟达现在仍然售卖GPU,但真正不同的是,英伟达现在有了商业软件业务。

新软件NIM,代表着英伟达的推理微服务。

NIM使得在英伟达的任何GPU上运行程序都变得更容易,即使是可能更适合部署但不适合构建AI的旧GPU。

也就是说,假如一名开发者有一个有趣的模型,希望向人们推广,就可以把它放到NIM中。英伟达会确保它可以在所有的GPU上运行,这样模型的受众就大大扩展了。

NIM使得部署AI变得更容易,这就更加增加了客户使用英伟达芯片的粘性。

并且,与新AI模型的初始训练相比,NIM的推理需要更少的算力。

这样,想要运行自己AI模型的公司,就能运行自己的AI模型,而不是从OpenAI等公司购买对AI结果的访问权。

需要购买基于英伟达服务器的客户,需要注册Nvidia企业版,每个GPU每年需要花费4,500美元。

英伟达将与微软或Hugging Face等人工智能公司合作,确保他们的人工智能模型经过调整,可以在所有兼容的英伟达芯片上运行。

老黄核弹表情包

老黄核弹表情包

然后,使用NIM,开发者可以在自己的服务器或基于云的英伟达服务器上,高效运行模型,而无需冗长的配置过程。

Das介绍说,在自己调用OpenAI的代码中,他只替换了一行代码,就指向了NIM。

另外,NIM软件还将帮助AI在配备GPU的笔记本电脑上运行,而不是在云端的服务器上。

NIM支持跨多个领域的AI用例,包括LLMs、视觉语言模型(VLM)以及用于语音、图像、视频、3D、药物发现、医学成像等的模型。

AI API就是未来的软件。在未来,所有LLM都可以从云端获取,从云上下载,运行它的工作站。

终极生成式AI模型

而现在,整个行业都已经为Blackwell准备好了。

2012年,将一只小猫的图片输入,AlexNet识别后输出cat,让世界所有人为之震惊,并高呼这改变了一切。

而现在从三个字cat输出10million 像素成为了可能。仅用了10年时间,我们就可以识别文本、图像、视频。

万物都皆可数字化。

网友表示,老黄向我们展示了GenAI的终极游戏:多模态输入——多模态输出。

iqoo 11标准版配置被曝

这是我们总有一天都会使用的最终模型。它可以获取任何模态并生成任何模态。同时,它还能在没有每个部件的情况下工作。

数字化的目的是让所有的目标都能成为机器学习的目标,从而让它们都能被AI生成。

比如,数字孪生地球,可以很好地帮助我们了解全球气象气候的变化。

将基因、蛋白质、氨基酸数字化,可以让人类去理解生命的力量。

在大会接近尾声时,活动迎来了一个小高潮:WALL-E机器人也登台表演了。

而生成式AI的未来应用不仅于此。

现在,有了世界最强的处理器Blackwell,新一轮技术革命即将开启。

参考资料:

https://youtu.be/Y2F8yisiS6E?list=TLGGFIbdOwQMZx4xODAzMjAyNA


返回网站首页

本文评论
盒马mall「盒马:北上广深等15城同上“移山价”」
8月21日消息,盒马今日宣布在杭州、成都等13个城市推出“移山价”,加上此前于7月31日在上海、北京上线,目前已经有15个城市推出“移山价”。盒马方面表示,“移山价”覆盖包括水果...
日期:08-21
润和软件计划近期发布AI中枢平台公测版本_润和软件实地探访
润和软件在深交所互动平台表示,公司拟于近期发布AI中枢平台公测版本。今年 4 月初,润和软件推出了基于大模型的新一代AI中枢平台和四款行业应用内测产品,致力于应用最新的AI技...
日期:06-29
39亿美元收购医疗服务供应商,亚马逊又一大手笔,为了什么?
7月22日消息,当地时间周四美国电商亚马逊宣布斥资39亿美元收购医疗服务供应商One Medical。在此之前,亚马逊于2017年花费137亿美元收购连锁超市全食超市,去年又斥资84.5亿美元...
日期:08-27
海信系上半年持续全球第二 年轻品牌Vidda单月市占率破10%「海信市场份额」
  日前,奥维睿沃(AVCRevo)发布《全球TV品牌出货月度数据报告》显示,2023年上半年,全球电视出货共8918.9万台,同比下降1.7%,中国头部品牌出货规模持续扩大。海信(含东芝)电视出...
日期:08-11
马斯克融资历史「马斯克AI初创公司xAI寻求融资10亿美元 已完成近1.35亿美元」
12月6日消息,据外媒报道,在OpenAI训练的人工智能聊天机器人ChatGPT大火之后,马斯克曾多次发表他对人工智能及大型语言模型的看法,而在今年年初,他也创立了人工智能方面的公司xAI,...
日期:12-07
小米双折叠手机参数_小米双折叠手机发布时间及售价曝光:感受下
  1月23日,小米联合创始人、小米总裁林斌展示了小米双折叠手机。   据媒体最新报道,小米双折叠手机将会在今年第二季度推出,其零售价可能会在999美元左右(约合人民币6700...
日期:05-28
苹果铃声格式_苹果铃声格式转换
是一种用于苹果设备的特定音频格式,它的名字叫做M4R。M4R格式是基于MPEG-4音频格式的扩展名,具有更好的音质和高可靠性。苹果铃声格式通常用于iPhone、iPad、iPod Touch等设备...
日期:05-28
万物新生(原爱回收)旗下B2B平台拍机堂再创新高 同比增长超243%_爱回收 资源机
  对于万物新生(原爱回收)集团旗下B2B平台拍机堂的商户来说,2021年必将是忙碌的一年。3月1日,万物新生集团(原爱回收)旗下B2B业务拍机堂发布战报。战报显示,2月25日,平台销...
日期:07-16
国庆ems放假吗「国家邮政局:中秋国庆假期全国揽投快递包裹超51.47亿件」
10月7日 消息:国家邮政局监测数据显示,今年中秋国庆放假期间(9月29日-10月6日),全国揽投快递包裹超51.47亿件。2021全球智慧能源高峰论坛英伟达4090发售价苹果充电是5v 1a吗小米...
日期:10-07
3G+64GB内存组合!苹果全新古老神机iPhone SE2降至1999元以内
快科技12月18日消息,据国内媒体报道称,马上上市4年的iPhone SE2降价了,跌至2000元以内,你会购买吗?在数码海外京东自营专区,全新iPhone SE2 64GB版本的价格已经来到了1999元,而京东...
日期:12-18
电动车续航轻松超1000公里、10分钟快充 宁德宣布麒麟电池已量产装车
7月25日晚,宁德时代发布了2023半年报,实现营收1892.46亿元,同比增长20.33%;归母净利润207.17亿元,同比增长153.64%。技术方面,宁德时代宣布上半年公司研发费用投入达98.5亿元,同比...
日期:07-25
中国农业科学院科研人员开发出首款茶树高密度 SNP 芯片_茶树转基因的技术研究
  12 月 21 日消息,近日,中国农业科学院茶叶研究所茶树遗传育种团队基于“龙井 43”基因组参考序列和茶树重测序数据,开发出一款 200K 茶树 SNP 芯片。相关研究成果在《植物...
日期:07-17
千亿电竞将于“Z世代”爆发?「中国电竞圈」
声明:本文来自于微信公众号 壁虎看KOL(ID:bihukankol),作者:江渔,授权转载发布。年轻热血的电竞行业展望2021:区块链十大趋势21年秋,一则西湖边某少年手舞足蹈的视频成为抖音热门...
日期:10-06
玖富集团以AI技术为金融业转型提供助力(玖富金融公司简介)
  ​原标题:   在金融需求愈发多元化的当下,AI与金融的结合提供了个性化、智能化、专业化的金融服务,完善了金融领域信用和风险评级体系,不断促使金融资源配置效率得以提高...
日期:08-15
科技伦理治理体系「被忽视的B面:科技伦理治理靠什么指引未来?」
近些年,以人工智能技术为代表的新兴科学技术的深入应用,显著提升了社会生产效率,让人类的生活变得更加便捷舒适,但与此同时,科学技术不够成熟、安全隐私保护不完善、社会伦理道德...
日期:09-09
不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:佳琪,授权转载发布。增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数...
日期:12-04
泰国保险公司将为熊猫赔付1500万泰铢 熊猫“林慧”死亡原因待确定
泰国清迈动物园发布消息,21岁的中国大熊猫“林惠”于4月19日凌晨离开了人世。据悉,泰方曾为“林惠”投保了死亡保护保险,理赔金额为1500万泰铢。印度目前高铁进展喝水应该用什...
日期:04-20
苹果iPhone15 CarPlay不兼容:买转换器才解决问题_ios15 apple carplay
近日,据Reddit社区和MacRumors论坛的反馈,一些iPhone 15用户出现了不兼容CarPlay的问题。这些问题与新款iPhone 15和iPhone 15 Pro系列手机右侧使用USB-C端口的设计有关。由于...
日期:09-30
谷歌公司的员工福利_谷歌员工要求公司为临时工提供堕胎福利
讯 北京时间8月19日消息,超过650名Alphabet旗下谷歌员工向公司请愿,要求公司为合同工提供堕胎福利,暂时停止向反堕胎政治家捐款,保护好用户,使之免受虚假堕胎信息及警方要求的影...
日期:08-20
摩尔斯微电子在 2024 年美国消费电子展推出 Wi-Fi HaLow 客户创新产品_摩尔斯精密科技有限公司
通信世界网消息(CWW)2024年1月17日,领先的 Wi-Fi HaLow 芯片供应商摩尔斯微电子宣布,在1月9日至12日举行的 CES 2024 (2024年消费电子展)上,推出一系列客户生态系统创新产品。这...
日期:01-22