您的位置:首页 > 互联网

国产GPU正式进入万卡万P时代!摩尔线程智算集群扩展至万卡

发布时间:2024-07-06 12:09:52  来源:互联网     背景:

无论是游戏显卡还是AI加速卡,NVIDIA都已经是绝对垄断地位,而在当前的形势下,我们不但要有自己的游戏卡,更要有自己的加速卡。

这个重担,摩尔线程英勇地都扛了起来,率先交付全国产千卡千亿模型算力集群之后,又率先拓展到了万卡、万P、万亿规模!

摩尔线程重磅宣布,AI旗舰产品夸娥(KUAE)智算集群解决方案重大升级,从当前的千卡级别,扩展至万卡规模,从而具备万P级或者说10E级浮点运算能力,也就是每秒可执行千亿亿次级别的计算。

所谓万卡集群,顾名思义,就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统,主要用来训练、微调超大规模的基础大模型。

这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术,堪称一台超级计算机”,可支持千亿级、万亿级参数规模的大模型训练,可以大幅提高训练效率、缩短训练时间,快速迭代模型能力。

在国外,诸多科技巨头都已经部署了万卡集群,拥有数万甚至数十万张GPU加速卡。

比如马斯克近日就透露,新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练,因此将会非常特别”,为此耗资多达三四十亿美元。

再比如谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU,Meta训练下一代大模型的两个集群拥有24576块H100 GPU,16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型,科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台飞星一号”。

由此可见,在AI模型训练的主战场,万卡集群已成为最低入场券。

但是,万卡集群乍一看只是千卡集群的拓展和延伸,它绝非简单的更多计算卡叠加,而是一个超级复杂的系统工程,需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

那么,万卡集群如此难做,摩尔线程作为成立还不到4年的国产GPU企业,为什么要去挑战呢?

2019年巴菲特每次建仓股票

这是一条难而正确的事情,摩尔线程推出夸娥万卡智算集群解决方案,就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台,并优先解决大模型训练的难题。

摩尔线程创始人兼CEO张建中强调:要挑战最难做的事情,除了有勇气之外,还要有能力,要有很好的团队,有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才,否则是很难做成的。做成一件事情,其实不是偶然的,而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定,但是不管什么样的决定,真正强的团队才是核心。摩尔线程就有很强的团队,这么多年的经验,我们在GPU行业里的知识、Know-how,碰到过的困难,解决过的难题,对我们来说都是非常宝贵的经验。”

夸娥,是摩尔线程的智算中心全栈解决方案,以其自主研发的全功能GPU为底座,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)、夸娥大模型服务平台(KUAE Model Studio),软件硬件一体化,训练推理一体化,交付一体化,可以开箱即用,提供大规模GPU算力集群的建设、运营管理。

摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽,可实现系统性协同优化,从而达到超强的算力,并且MFU最高可以达到60%。

稳定性也是卓尔不群,平均无故障运行时间超过15天,最长可以稳定训练大模型30天以上,周均训练有效率超过99%,远超行业平均水平,而且可以性能自动调休、问题自动诊断,2分钟内就能快速修复,进而断点续训练。

这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:软硬件故障的自动定位与诊断预测,实现分钟级的故障定位;Checkpoint多级存储机制,实现内存秒级存储和训练任务分钟级恢复;高容错高效能的万卡集群管理平台,实现秒级纳管分配与作业调度。

此外还有强大的通用性,支持所有主流大模型训练,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态,支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

同时,基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify,开发者只需极短的时间、极少的工作就能完成迁移,甚至几乎不需要修改代码,迁移成本趋近于零。

值得一提的是,摩尔线程表示,如果已经适配过摩尔线程的千卡集群,不需要任何额外工作就可以无缝跑在万卡集群上,而哪怕是第一次适配万卡集群,也只需几个小时,只是性能调优需要花一点时间,主要是模型使用方法不同、芯片厂商策略不同所致。

目前,摩尔线程已经实现从芯片到算力卡,从一体机到节点集群的全栈式覆盖,支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

- 大模型智算加速卡MTT S4000

训推兼顾,专为大模型打造的大模型智算加速卡。

单卡支持 48GB 显存、768GB/s显存带宽,并支持摩尔线程自研MTLink 1.0互连技术,卡间互连带宽240GB/s,从而支持高效多卡互联。

- AI大模型训推一体机MCCX D800

双路八卡GPU服务器,专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

它还具备多达1664GB DDR5内存、2480GB SATA系统盘、43.84TB NVMe SSD缓存数据盘、双路400Gb IB与四路25Gb以太计算存储网络。

- AI超融合一体机(KUAE FUSION)

夸娥智算集群的单个节点,如今也可作为单独产品提供,可以任意并联扩展。

财报显示,小米集团该季度收入达人民币722亿元,同

它基于MCCX D800 训推一体机,属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

目前,摩尔线程万卡集群项目已经完成了三项战略签约,分别是:

与青海移动的青海零碳产业园万卡集群;

与青海联通、北京德道信科集团的青海高原万卡集群,;

与中国能源建设、桂林华崛大数据的广西东盟万卡集群。

生态方面,摩尔线程的版图也正在迅速扩大。

国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等,都与摩尔线程有着深入的合作,尤其是利用摩尔线程夸娥智算集群,助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

在上海举办的世界人工智能大会WAIC 2024期间,摩尔线程也展示了自己的全栈解决方案。

除了芯片、算力卡、服务器、一体机节点之外,还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

AI算力底座展示区,包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台,以及夸娥生态版图。

夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台,是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台,深度集成全功能GPU计算、网络和存储,提供高可靠、高算力服务。

夸娥模型服务平台覆盖大模型预训练、微调和推理全流程,支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具,可以良好兼容CUDA应用生态,内置的容器化解决方案,则可实现API一键部署。

夸娥大模型推理平台,基于高效的MT Transformer大模型推理引擎,支持业内主流vLLM推理框架、MUSA Serving自研推理框架等,帮助开发人员高效地在云端部署高性能推理服务。

AIGC创作生产力展区,可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台摩笔马良”。

它部署了摩尔线程自研大语言模型MUSAChat,可以及时润色、翻译用户的输入文本,进一步增强语义理解,还可以基于用户的文本指向,灵活调用SDXL、SD1.5两代模型能力,生成细节丰富、有艺术感的图像结果。

同时,结合多种IP-Adapter、ControlNet技术,它还支持创意人像”,上传一张个人照片,以文字描述目标风格,1分钟内就可以得到细腻、逼真的人像图片,而且无需训练、风格不限。

摩笔天书”则是依靠夸娥智算集群的AI内容生成解决方案,可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

用户只需输入标题和简要的故事大纲,即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材,并自动合成图文绘本故事和视频绘本故事。

MT AIR”(MT AIReality)是摩尔线程自研的新一代的AI渲染平台,构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线,轻松实现三维重建,可用于影视、动画、游戏、元宇宙等领域。

Sora复现计划”(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目,利用开源社区的力量,完成对Sora文生视频的复现,当前在Github上有超过1万开发者,摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

在产业数智化升级展示区,可以看到基于人工智能气象预报大模型书生风乌的气象预测应用、基于东华软件私有化大模型智多型(A.I.Cogniflex)的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

取出的胆结石有价值吗

值得一提的是,依托夸娥智算集群的强兼容、高算力等特性,风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移,首次实现从硬件到算法的全国产化,且性能、精度均达到国际先进水平。


返回网站首页

本文评论
435亿公司董事长郑永刚去世:杉杉商业王国从服装开始「杉杉集团董事长郑永刚」
据杉杉官网,公司创始人、董事局主席郑永刚因突发心脏病救治无效,于2月10日去世,终年65岁。目前,杉杉集团官网已置灰。在2022胡润百富榜,郑永刚以80亿财富位列795名,涉足行业主要是...
日期:02-13
李佳琦,正在告别“猪猪女孩”?
文|一橙出品|网易科技《态℃》栏目“多少字也挡不住内心的傲慢。”“挣着普通人的钱,到头来嘲讽普通人的贫穷?”昨日,李佳琦“李佳琦带货怼网友”、“李佳琦 花西子”相关话题冲...
日期:09-11
《黑暗荣耀》成话题制造机,自媒体人追剧的4大姿势…「黑暗与荣耀礼包码大全」
声明:本文来自于微信公众号 西瓜君(ID:xiguaxiaojun),作者:西瓜君,授权转载发布。距离奈飞神剧《黑暗荣耀2》开播虽已过去十余天,但多个与剧情相关的话题却仍还在微博热搜榜上占...
日期:03-24
小米高端步入快车道 盈利能力释放超预期「小米转型高端」
文 | 崔玉贤出品 | 网易科技《态℃》栏目组近日,小米公布了2023年Q1的财报。虽然大环境整体不佳,行业处于下行周期,但小米财报中几个数据却颇为亮眼:整体毛利率19.5%,创历史新高;...
日期:05-29
微软雅虎确认将结成同盟 合营广告业务的原因_微软雅虎确认将结成同盟 合营广告业务
  分手三年之后,微软和雅虎又走到了一块。   昨日,全球的三大广告平台提供商共同签署了一单史无前例的超级合同,雅虎、美国在线和微软已确认将结成同盟,合作经营广告业务,以...
日期:07-24
中国联通抢修京津冀区域受损通信设施最新进展:网络信号正有序恢复中
通信世界网消息(CWW)7月29日起,京津冀等地持续遭遇强降雨袭击,北京门头沟、房山以及河北涿州、易县等区域受灾严重,通信基础设施受强降雨影响造成损坏。连日来,中国联通集团公司多...
日期:08-04
构建面向未来的数据中心,2024年度睿启服务器新品发布会成功召开
通信世界网消息(CWW)5月30日,备受行业期待的2024年度睿启服务器新品发布会在北京成功召开。本次大会以“智算时代,构建面向未来的数据中心”为主题,吸引了众多企业代表和行业精英...
日期:06-03
国产操作系统安全硬实力亮相2023商密大会「国产操作系统名录」
8 月 9 日, 2023 商用密码大会在郑州国际会展中心开幕。全国商用密码大会是我国商密领域规格最 高、影响最 大的全国性盛会之一,本次大会以“密码赋能美好发展”为主题,由国家...
日期:08-11
百度创新营销大会_驱动商创新 百度荣膺“营销技术之星”大奖
  日前,由知名咨询公司易观国际与APEC电子商务联盟联合主办的“2011亚太电子商务绿色经济发展峰会暨第二届易观电子商务年会”上,全球最大的中文搜索引擎百度凭借对电子商...
日期:07-27
国内热门线路机票均价涨超20%,暑运迎首波出行高峰_2020机票价格数据分析
【】6月24日消息,随着中高考结束和中小学生暑假的来临,各地探亲和家庭出游需求陆续迎来暑期第一波出行高峰。九阳电磁炉防辐射是真的吗同程旅行《2024暑运出行趋势报告》显示,6...
日期:06-24
马斯克又有麻烦了!推特被指控欠前员工5亿美元遣散费_马斯克 推特 最新
财联社7月13日讯(编辑 卞纯)周三,推特遭遇了一起新的诉讼,被控拒绝被解雇的数千名员工支付至少5亿美元的遣散费。在去年10月马斯克收购推特后,推特解雇了一半以上的员工,以削减成...
日期:07-13
美国恶意做空中概股「拟通过法律手段对抗做空机构-美国支付公司Block遭到做空」
北京时间3月24日早间消息,据报道,在做空机构兴登堡研究(Hindenburg Research)发布报告,指控支付公司Block为诈骗分子提供便利后,Block宣布将寻求法律手段与之对抗。当地时间周四,在...
日期:10-05
5g技术高通_高通5G基带不断驱动行业应用 5G精彩体验刚刚开始
  随着5G技术的日渐成熟,除了在智能手机领域的应用以外,5G行业应用也越来越多的出现在人们的视野,让我们逐渐了解到了5G在智能手机之外的更大效用,其中5G在游戏行业应用就是...
日期:04-11
Midjourney测试版怎么使用 Midjourney测试版进不去_mib测试模式打开方式
近日,Midjourney在Discord宣布进行了网站的第一阶段更新,旨在提升用户体验,使用户能够更轻松地享受更多服务。该更新主要集中在搜索、浏览和查看图片等功能上,而组织功能和图片...
日期:10-30
AI视野:北京首批5款AI大模型产品正式开放;文心一言登顶Apple Store免费推荐榜
北京首批5款AI大模型产品正式通过备案上线北京首批5款AI大模型产品正式通过备案上线,标志我国自主研发的大型语言模型进入商业化应用新阶段。小米13要点:北京首批5家企业的大...
日期:08-31
日本将开发更强日语能力的“大语言模型”人工智能技术「日本语言现象」
5月23日 消息:据共同社消息,日本东北大学和日本东京工业大学等团队计划开发一种更强日语能力的“大语言模型”,作为生成式人工智能(AI)的基础技术。特斯拉技术问题抖音展示违规...
日期:05-23
天玑9300性能王实至名归,安兔兔跑分205万+打破纪录!
最 新消息!联发科天玑 9300 安兔兔跑分曝光,其成绩竟然超过了 205 万,一跃成为了安卓旗舰性能王。同时,其“全大核”CPU架构设计也引发了广泛关注,卓越的性能和低功耗优势成为了...
日期:10-25
苹果有望于6月5日发布混合现实头显 邀请函暗藏玄机?_iphone邀请函什么意思
新浪科技讯 北京时间4月3日消息,据报道,苹果已经确定将于2023年6月5日举行今年的全球开发者大会(WWDC 2023),这将成为该公司历史上最重要的日子之一,因为他们届时很有可能会推出备...
日期:10-04
facebook2020年营收_消息称Facebook上半年营收达16亿美元
  一名消息人士透露,Facebook今年上半年营收增长至16亿美元。这表明Facebook对广告主的吸引力正在提升。   该消息人士同时表示,2011年上半年Facebook净利润接近5亿美元...
日期:07-22
百川智能发布“鹏城-百川·脑海33B”大模型 具备128K长窗口
11月17日 消息:百川智能与鹏城实验室宣布合作研发基于国产算力的最长窗口大模型。该合作突破了国产算力大模型的技术限制,对国内大模型企业发展具有示范作用。合作双方将充分...
日期:11-17