您的位置:首页 > 互联网

万卡集群:从"打群架"到"群体突破"还有多远?_万卡最新

发布时间:2024-05-15 08:56:45  来源:互联网     背景:

万卡集群:从"打群架"到"群体突破"还有多远? 通信产业网|2024-05-14 22:21:07作者:胡媛来源:通信产业网

【通信产业网讯】(记者 胡媛)从ChatGPT到Sora、Claude 3、Llama 3等,大模型参数从百亿级、千亿级迈向万亿级,模型能力更加泛化,大模型之战如火如荼,国产大模型迫切需要加速追赶甚至超越。与此同时,也引发一波新的AI算力荒,从此前的芯片紧缺,上升为AI算力集群级的“饥渴症”。

数据显示,到2030年,通用算力将增长10倍,达到3.3 ZFLOPS,而智能算力将增长500倍,达到105 ZFLOPS。作为人工智能产业的算力底座,智算中心未来3~5年有望保持超30%的高速成长,千卡集群、万卡集群将是其完成跃迁的重要跳板。

“集群”弥补“单卡”

万卡倒闭了吗?

解决AI算力荒的必要路径

随着大模型训练与推理需求呈几何级数爆发,再加上GPU供应存在干扰,算力芯片的供求缺口相当巨大。“N卡难求”引发抢购、囤货风潮,而市场中也很难找到直接对标国际巨头单卡性能的产品。

业内专家指出,当下我国智能算力处于严重的供不应求状态,大模型对算力需求增长已远高于单颗AI芯片性能的增长速度,通过集群互联弥补单卡性能不足,也许是当下最值得探索并解决AI算力荒的必要路径。考虑到多重因素叠加,以及与国产大模型共同打造AI产业商业闭环的需求,构建自主创新的本土化集群更是迫在眉睫。

显而易见,千卡集群、万卡集群是满足AI算力需求的抓手。万卡集群是什么?即使用数万个GPU构建大型人工智能算力集群,用以训练基础大模型。这种集群有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代,并及时对市场趋势作出应对。

rtx3060ti8g显存玩游戏

从千卡集群到万卡集群时代,从卷“模型”到卷“应用”,业界亟需高效、可持续的算力,跑通多种新计算任务。在这些多样化新需求驱动下,将芯片系统组合起来的新型万卡智算中心,成为满足大模型产业落地的重要抓手,也成为大国AI较量的标配新基建。

据了解,国内智算中心未来搭建集群主要有两个选择。一是采用国内外芯片“混搭”的集群模式,这对系统优化的要求很高,“最短的木板”可能影响算力整体效率的充分释放,预计需要较长时间的磨合才能找出最优路径;二是采用国产化的集群模式,在“能用”的基础上向“好用”不断迈进,以扎实的实践成果开辟自主创新的广阔天地。

过去一年,我国千P级智算中心的智算基建布局集中爆发。当前,国内的万卡智算中心仍处于发展初期,面临发展挑战。因此,留给国产AI算力的机会,就在千卡以上的集群,以及背后的软件生态。正如中国工程院院士郑纬民所说,构建国产万卡系统,虽然很难,但很必要。

大模型专家、国内首个AI大模型产业赋能中心运营人刘秋江告诉《通信产业报》全媒体记者,目前有越来越多的万卡算力集群正在建设中,但是目前多数大模型还处于训练迭代和小规模使用阶段,无法满足可见的产业需求,未来还需要建设更多的算力集群。

华为卫星计划

万卡属于正规平台吗

万卡集群竞赛

科技公司“打群架”

目前,算力集群已经从千卡集群迈入了万卡集群、五万卡集群。甚至有预测,GPT-6未来部署的时候,需要70万~80万张卡才能支撑。

攒算力这个事,各大科技公司各显神通,纷纷投入研发,提出各种在万卡集群上用于训练大模型的方案。不过,能设计并有效运行万卡集群的企业,仍掌握在少数手中。

在国际大舞台上,诸如Google、Meta、微软、亚马逊、特斯拉等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发,以及生态服务等方面的技术创新。如Google推出超级计算机A3 Virtual Machines,拥有26,000块Nvidia H100 GPU, 同时基于自研芯片搭建TPUv5p8960卡集群。Meta在2022年推出拥有16,000块Nvidia A100的Al研究超级集群Al Research Super Cluster,2024年初又公布了2个24576块Nvidia H100集群,支持下一代生成式Al模型的训练。

在国内,通信运营商、头部互联网企业、大型AI研发企业、AI初创企业等均在超万卡集群的建设和使用过程中不断推动技术革新。

运营商作为国家算力基础设施建设的中坚力量,正加速推进超万卡集群智算中心的建设。中国移动不久前透露,今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡。中国电信于今年上半年在上海规划建设到达15,000卡、总算力超4500P的国产万卡算力池,将是国内首个超大规模国产算力液冷集群,也是业内领先的全国产化云智一体公共智算中心。中国联通上海临港国际云数据中心在今年内将建成中国联通首个万卡集群。

在互联网企业中,除了字节跳动是出了名的“N卡”收集狂,阿里巴巴、百度有部分自研芯片外,绝大多数的大中小厂都在疯狂寻找国产AI算力的替代方案。其中,字节跳动搭建了一个12,288卡Ampere 架构训练集群,研发MegaScale 生产系统用于训练大语言模型。蚂蚁集团在去年透露已建成万卡异构算力集群。2023年,腾讯推出的高性能网络星脉,具备业界最高的3.2T通信带宽,为AI大模型带来10倍通信性能提升,基于腾讯云新一代算力集群HCC,可支持10万卡GPU的超大计算规模。

此外,2023年7月,华为宣布昇腾AI集群全面升级,集群规模从4000卡集群扩展至16,000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。2023年,科大讯飞建设成首个支持大模型训练的超万卡集群算力平台“飞星一号”。2024年2月4日,“深圳开放智算中心”点亮“深圳市智慧城市算力统筹调度平台”,这一平台将助力深圳打造10万卡“最强算力”集群。

值得一提的是,对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面,同时还需要针对下游客户的具体需求,提供定制方案。服务器作为算力资源的重要载体,也正成为企业构建万卡集群的核心一环。

那么,从千卡、万卡到十万卡、百万卡,为什么智能计算仍在“堆卡”?这个趋势是可持续的吗?

显然,算力集群卡的数量非线性增加,会带来更大的不稳定性和协作难度。新华三专家认为,与“N卡”相比,我们单卡单打独斗有差距,但多卡集群服务不能打群架。

从“建”到“用”

万卡集群如何跨越五重挑战

关于集群构建的路径探索,业界存在不少误区。有人认为“集群就是一堆服务器叠在一起”,也有人觉得“集群的算力越大越好”,这些观点都低估了复杂系统的运行难度,以及多要素协同突围的重要性。

oppo手环来电提醒

苹果十月发布会最新消息

专家认为,集群建设无疑是一个系统性复杂工程,从GPU到服务器再到组成集群,涵盖计算、存储、网络、软件,以及大模型调度等多个环节,对算力利用率、稳定性、可靠性、可扩展性、兼容性等指标都有颇高的要求,市场期待出现能满足智算中心全栈式需求的“交钥匙”解决方案。

毋庸置疑,在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转,超万卡集群的总体设计应遵循坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展五大原则。

然而,大模型时代,算力即生产力,市场巨头们以数万GPU构建AI集群仍处于起步阶段。《通信产业报》全媒体记者在采访中发现,万卡集群建设还面临五重挑战。

第一,极致算力使用效率的挑战。集群规模的线性提升并不直接导致算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。《面向超万卡集群的新型智算技术白皮书》指出,需要运用系统工程方法,通过对超万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。

第二,海量数据处理的挑战。千亿模型的训练需要对PB量级的数据集使用多种协议进行处理,未来万亿模型的训练对checkpoint的读写吞吐性能更是要求高达10TB/s,现有智算存储系统在协议处理、数据管理、吞吐性能等方面面临诸多挑战。需要通过协议融合、自动分级等一系列技术手段,提供高效的数据共享和处理能力,满足大模型训练的需求。

第三,超大规模互联的挑战。随着模型规模扩大,需要多机多卡互联和并行训练策略,这对网络的ScaleOut(横向拓展)和ScaleUp(纵向拓展)提出极高要求。这就要求参数面网络和数据面网络需要具备高带宽、低时延和高可靠性,支持大模型训练的数据吞吐和计算需求。

第四,确保大规模训练过程中的高稳定性与高效率。在大模型训练中,稳定性至关重要,因为失败和延迟虽然常见,但代价高昂。缩短故障恢复时间刻不容缓,因为一旦有掉队者,不仅影响个人进度,更可能导致数万GPU的整体作业受阻。需要精心优化,确保训练稳定高效,来应对这一挑战。

第五,国产软件生态挑战。虽然国内已经有30多家公司推出了国产AI芯片,但用户不太喜欢用,核心问题就是国产软件生态不好。目前,编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等关键软件,虽然都有国产的,但仍有不足之处,比如功能不够齐全、性能不够好、生态贡献者不够繁荣等。

随着AI大模型参数越来越大,对算力集群提出了更高依赖和渴求,要求算力厂家在芯片、调优、通信,以及系统性开发和管理等多方面下功夫,从而真正跑出大模型产业发展的加速度。

责任编辑:胡媛


返回网站首页

本文评论
“最强法务部”名不虚传:任天堂赢得Joy-Con手柄集体诉讼案_任天堂 法务
作为一款游戏主机,任天堂的Switch一直有着相当出色的口碑与强大的第一方游戏阵容,广受玩家喜爱。但作为一款电子产品,Switch的Joy-Con手柄,却存在明显的设计缺陷,漂移问题至今都...
日期:02-05
努比亚Z60 Ultra正式发布 售价3999元起_努比亚x6价格
12月19日消息,努比亚Z60 Ultra正式发布。新机推出了NeoVision泰山影像系统——高定光学三主摄;全新UDC柔性全面屏,支持第五代屏下摄像技术;配备骁龙8 Gen3满血三件套、6000mAh硅...
日期:12-19
SpaceX星际飞船将于2024年发射日本通信卫星_2020年spacex发射次数
8月19日消息,当地时间周四日本卫星运营商天空完美公司(Sky Perfect JSat)宣布,将在2024年用SpaceX公司的星际飞船把旗下“超级鸟9号”(Superbird-9)通信卫星送入地球同步转移轨道...
日期:08-21
特斯拉辅助驾驶系统四年间在美国发生736起车祸 至少17人遇难
6月12日消息,媒体对美国国家公路交通安全管理局(NHTSA)收集的数据进行分析后发现,自2019年以来,美国共发生了736起涉及特斯拉司机辅助驾驶系统的车祸,远远超过此前报道的数量。在...
日期:06-12
波士顿大学研究:为什么苹果可以在 iPhone 价格上守住底线_苹果价格波动很大吗?
美国的通货膨胀率飙升至接近 40 年来的最高水平,食品、燃料和几乎所有东西的价格似乎每个月都在上涨。智能手机可能是个例外。例如,苹果公司最近宣布了其新版本的 iPhone 和其...
日期:09-18
里程碑达成!卢伟冰:Redmi手机销量十年达到10亿台_红米手机总销量
快科技11月29日消息,在今晚举办的Redmi十周年暨K70系列发布会上,卢伟冰宣布,Redmi手机销量十年达到10亿台。iphone12为什么还是刘海屏 卢伟冰还回顾了Redmi的十年发展历程。...
日期:11-30
没有数据 双11收官京东、天猫战报这样说「双11天猫京东手机战报」
11月12日消息,从10月下旬就开始的“双11”折扣季在11月12日零点收官。对于第14届天猫双11的表现,天猫官方表示:今年天猫双11稳中向好,交易规模与去年持平。天猫去年双11的交易额...
日期:11-14
长亭科技专注技术创新 获2019 Fortress Cyber Security Award提名
  6月5日,Business Intelligence Group公布了2019 Fortress Cyber Security Award名单,长亭科技雷池(SafeLine)下一代Web应用防火墙凭借技术创新和在实际应用场景中的亮眼...
日期:09-01
三星galaxy watch6功能三星Galaxy Watch6系列解锁新体验 2024健康相伴
来源:中关村在线新年的钟声即将敲响,2024正跨着大步向我们走来。在一元复始的岁末更替之际,想必有很多朋友都将健康与平安作为自己的新年愿望。因此能帮助保持健康生活状态的三...
日期:12-28
字节跳动捐赠2000万元 ,支援甘肃及青海地震灾区_字节跳动公司捐款
通信世界网消息(CWW)12月18日23时59分,甘肃临夏州积石山县发生6.2级地震,截至目前,地震已造成甘肃105人死亡、青海11人死亡,部分水、电、交通、通讯等基础设施受损。12月19日,北京...
日期:12-20
用投影仪怎么玩游戏,哈趣k1pro投影仪HDMI2.1游戏模式轻松接入_投影仪玩游戏怎么设置
投影仪玩游戏,已经成为众多消费者游戏休闲娱乐最主要方式之一;投影仪通过HDMI口接入SIWTCH/PS5 等游戏机设备,大屏投影仪游戏画面。不过对消费者来说,还是有很多疑问投影仪玩游...
日期:04-12
华为全新轻薄型小折叠屏曝光 配备麒麟9000S 5G芯片_华为折叠屏2019
【太平洋科技资讯】根据最新消息,华为即将推出的新款轻薄型小折叠手机,并且将配备麒麟9000S 5G芯片。而该款华为折叠屏手机预计发布时间在2月,各位准备换手机的朋友,可以准备好...
日期:02-07
消息称苹果MR头显发售要等到2025年,元宇宙概念普及至少还要5年
4 月 20 日消息,长期担任苹果分析师的吉恩・蒙斯特 (Gene Munster) 表示,尽管该公司可能永远不会使用“元宇宙”这个词,但苹果公司的混合现实耳机将是对元宇宙的认可。外卖骑手...
日期:10-02
女生应聘被问是否单身 网友:这是招员工还是找女朋友「面试官问是否单身」
据九派新闻报道,广东东莞的任女士应聘行政岗,HR问任女士是否单身,令其觉得感到奇怪,于是便举报该公司,随后被曝光引发网友热议。excel输入前面字母即可显示之前输入过的信息对此,...
日期:02-09
rog魔霸5plus3060_无惧配置杀手 ROG魔霸5Plus搭载5900HX酣战赛博世界
  近日年度3A大作《赛博朋克2077》迎来1.1版本更新,在最新游戏版本内,包括NPC交互、激光效果、环境破坏系统、交通载具等场景或物品的属性都得到优化。仔细观察还可以发现,...
日期:07-16
77万!超跑极氪王开卖,零百2秒级,CEO:别人五年内造不出来
拥有F1冠军同款驾驶模式作者|王磊“友商们,五年之内也造不出来!”是谁凭一款车,就敢叫板整个汽车圈?极氪001 FR,刚刚正式上市,这款车虽然外观和极氪001 差不多,但动力迎来巨大升级。...
日期:10-28
智能云交付平台「Check Point公司展示AI赋能云端交付安全平台」
突破性的本地化解决方案和战略洞察力将进一步提升网络安全新格局中国,上海 -2024年4月18日,领先的云端 AI 网络安全平台提供商Check Point 软件技术有限公司(纳斯达克股票代码:...
日期:04-19
原版发布23年后:《帝国时代2:决定版》终于登陆Xbox平台_xboxone 帝国时代
1999年9月,微软发售了知名RTS(即时战略)游戏《帝国时代2》,成为了玩家心中的一代经典之作。但遗憾的是,《帝国时代2》虽然是微软第一方游戏,却迟迟没有登陆Xbox主机,即便是在2019年...
日期:10-27
gpu功耗级别「450W功耗!Intel顶级GPU突然生变 只为卖给中国?」
快科技4月11日消息,Intel在去年11月份发布了代号Ponte Vecchio的全新GPU Max系列加速计算卡,包括三个不同型号,但是现在,Intel突然取消了其中的一款。Intel GPU Max系列是Intel...
日期:04-12
电驴下载VeryCD遇变局:下载服务关闭 不涉及关站
  VeryCD首页上已经看不到音乐相关内容,排名第一的推荐电影,正与黄一孟七年前创建VeryCD时发出的第一个资源相同。(新浪科技配图)   新浪科技讯 1月23日凌晨消息,昨日晚间国...
日期:07-26