您的位置:首页 > 互联网

面向大模型的智算集群技术创新与生态构建正当时_智算平台

发布时间:2024-07-31 20:23:09  来源:互联网     背景:

通信世界网消息(CWW)大模型的兴起催生出巨大算力需求,掀起了新一轮智算集群建设高潮。全球主要国家的科技巨头、电信运营商、云服务商、基础设施建设方和算力供给商等相关产业主体加紧布局,试图抢抓大模型发展机遇、满足下游创新需求,以谋求战略主动,面向大模型的智算集群技术创新与产业生态构建迎来关键窗口期。 

智算集群成为大模型“军备竞赛”的焦点

大模型创新迭代需求是智算集群建设升级的关键驱动,正在加速向人工智能与高性能计算融合。近期,业界遵循Scaling laws(尺度定律)持续推动大模型创新迭代,一批大规模智算集群系统也加紧建设。大模型是各类创新主体进行更大规模模型实验的基础,将推动智能体、多模态等领域取得一系列突破成果。大规模智算集群建设成为国内外头部厂商训练部署大模型的共识(见表1),万卡集群成为支撑大模型“军备竞赛”的算力起点,人工智能与高性能计算系统加速走向融合,通信互联、集群规模等达到超算系统的水平,同时结合大模型计算特征和稳定性需求持续完善创新。

计算能力决定大模型性能“天花板”,也决定了分布式训练的效能和稳定性,是智算集群建设的重点。Scaling laws揭示了通用人工智能对算力需求日益增长的需求规律,同时也表明有限的算力供应可能成为制约大模型发展的瓶颈。综合考虑成本、效率等因素,智算集群规模与模型间普遍存在“百卡百亿、千卡千亿、万卡万亿”的对应关系(见表2)。

在集群规模快速扩展的同时,建设和使用主体对算力利用、互联通信、运维保障等方面提出更高要求,旨在提升大规模分布式训练的效能和稳定性,呈现“线性扩展、高效利用、高速互联、稳定可靠”四大需求特征。

一是追求近似线性的超大规模集群扩展能力。加速比是衡量并行计算效率提升的重要指标。“线性加速比”又称为“理想加速比”,是指处理器数量增加N倍,计算效率也相应提升N倍,极限比值为1。在实际模型训练过程中,会有参数同步等网络通信开销,无法达到极限比值,因此智算集群一直追求近似线性的超大规模集群扩展能力。产业各方针对大模型训练场景提供了专门的通信拓扑优化,试图最小化网络通信开销带来的性能损失,谷歌TPU v3千卡集群(1024张)优化后可达到95%以上的加速比,国产芯片厂商也可将千卡集群优化到90%以上,通过多种方式抑制节点协同损耗,不断提升集群使用效率。

二是强调对算力资源的充分挖掘利用。受互联带宽速率、计算任务类型(访存密集型和计算密集型)等限制,现有算法模型处理过程无法充分发挥硬件计算潜能,业界寻求更加高效的计算方式以提升算力资源利用率,如存储环节通过精细化缓存、查询请求消重等降低存储读写压力;通信环节基于时分复用的任务切换,提升通信效率;计算环节通过资源池化,实现资源的灵活切分、组合、分配和回收等。尽管业界进行了诸多定制优化,但典型MFU(模型算力利用率)普遍仅在40%左右,如GPT-4的MFU为32%~36%、谷歌PaLM的MFU为46%,仍有极大提升空间。各大典型模型的MFU见表3。

比亚迪新能源车销量2021

三是提升节点内外互联通信速率。在大规模预训练模型中,特别是MoE模型引入All to All通信,其单次通信数据量小,通信次数频繁,对高带宽、低时延的需求更为迫切。新一代智算集群需要高性能无阻塞的网络连接以及更高并行度的训练策略和通信范式,以提升节点内和节点间互联效率。从节点内看,当智算中心向千卡或万卡级别的全互联方向演进时,传统的直连拓扑结构不再适用,转向更高效、更先进的互联拓扑设计。更高效的拓扑设计分为私有化和开放化方案两类,私有化方案以NVIDIA NVLink为代表,开放化方案以OAM和UBB为主,均可实现“百卡级”无缝互联。节点间方案以InfiniBand(无限带宽技术)和RoCEv2为主,InfiniBand网卡以NVIDIA 为代表,互联速率和扩展规模领先,200Gbit/s HDR已实现规模化部署,400Gbit/s NDR开始商业推广;RoCEv2的网卡端口速率一般为50Gbit/s起,当前可达400Gbit/s,交换机端口速率普遍从100Gbit/s至400Gbit/s不等,转发能力持续提升。

四是长时间稳定训练和故障快速修复能力。领先算力集群规模普遍达到千卡至万卡级别,相比单节点训练,集群故障率呈指数级提升,维护难度急剧升高,如单卡故障率为0.01%,2000卡集群的故障率将飙升至18%,极大影响模型训练效率,增加研发成本,因此大模型训练更加需要长时间高可靠、高稳定的算力集群。目前业界通过缩减检查点开销、提升故障预警识别能力、增加任务容错机制等方式,实现分钟级故障定位并自动恢复,不断提升智算集群稳定运行能力,如腾讯自研端到端的全栈网络运营系统,将集群整体故障的排查时间由天级降低至分钟级;华为盘古大模型在2048卡训练30天不中断,断点恢复时长控制在10分钟以内。

软硬件深度协同是智算集群创新的重点

智算集群的发展重点已从单点技术突破向产业协同生态建设转移。在专用算法时代,产业发展聚焦于单点技术突破,框架、芯片、算法、网络等任一环节的极致优化可大幅提升AI效果;在大模型时代,大模型创新对先进基础软硬件系统依赖性更强,模型的创新与基础软硬件体系正加速耦合,一味追求算力规模扩张无法满足大模型创新需求,应更加注重应用、算法、关键软件栈、底层硬件全方位协同发展,实现系统收益最大化。

智算集群重点围绕算法极致优化的垂直适配以及支撑模型规模化的水平扩展两大方向,在软件栈能力、分布式训练、异构算力合池等方面进行协同创新。

垂直方向重点关注算法模型、框架、芯片间的高效兼容适配,强调通过完善软件栈功能、丰富算子库等方式释放硬件潜力,各厂商不断完善软件栈工具链,包括算子开发工具、编译器、编程语言、驱动程序等。业界正在探索统一软件栈接口方式,如通过第三方工具屏蔽底层软硬件差异,实现不同软硬件间互联互通。

水平方向致力于构建适用于大规模分布式训练的集群系统,一是软硬件层面加强分布式训练策略支持力度,如分布式框架具备多维并行策略和集群调度能力,从而实现对大模型训练的原生支持,分布式存储系统采用盘控协同、GPU直访存储、全局一致性缓存等技术为大模型数据训练、归集提供支持。二是推动异构算力合池成为缓解计算资源瓶颈的创新重点,如设计新的网络架构实现跨芯片互联互通、推动异构芯片通信标准化等举措,有助于不同芯片厂商间形成发展合力。

智算集群生态构建建议

锤子手机坚果pro2屏幕

当前,我国算力规模持续扩大,互联网、大数据、AI等领域中的新业态、新模式正加速涌现,为更好推动我国智算集群稳定高效发展和生态构建,助力千行百业数字化转型,笔者提出以下三方面建议。

智慧算法

智算科技有限公司

一是“全国一盘棋”统筹规划各地智算集群建设。构建面向人工智能的基础软硬件统一测评体系,在建设过程中测试验证各类协同技术发展情况,在各类软硬件产品选型、兼容适配、应用部署等方面形成统一标准,明确基于自主软硬件生态的技术路线和技术栈,确保满足大模型高效训推等人工智能创新研发要求,实现以智算中心建设为契机推动自主软硬件生态发展的目标。

二是以关键行业应用需求带动智算集群创新发展。考虑在工业、能源、交通、金融等行业应用领域搭建大模型行业解决方案测试床,小范围测试验证环境,低成本验证大模型应用效果,降低大模型应用门槛,为行业用户提供技术产品选型参考,加速推动基于智算集群的国产大模型成果产业化落地。

三是加快推动国产软硬件兼容适配。结合我国框架、芯片多样化发展的基本情况,加强不同尺寸、不同应用类型的模型与框架平台、硬件系统的适配;加快算子库及软件栈能力建设,推动算子开发、互联通信、软件栈接口等系列标准研制,充分释放异构芯片计算性能潜力;重点攻关异构算力合池、分布式加速框架等系统级创新技术,推动面向大模型的人工智能训推集群建设的标准化和规范化,有效缓解算力资源瓶颈。

*本文刊载于《通信世界》

总第948期 2024年7月25日 第14期


返回网站首页

本文评论
ios 小米手环「打通iPhone!小米手环8系统大升级:支持iOS电量小组件」
快科技11月26日消息,小米手环8系列近日迎来了一个重磅固件,iPhone用户更好用了。小米redmik20人脸识别根据小米手环8 NFC版v1.4.178更新说明显示,新固件新增支持了iOS的电量小...
日期:11-27
法拉第未来919「91首辆量产车下线 第一批交付时间推迟 法拉第未来FF」
4月15日消息,首辆法拉第未来FF 91量产车今日正式下线,FF全球CEO陈雪峰、FF创始人兼 CPUO贾跃亭先生携核心高管现场见证了这一里程碑时刻。FF 91系列共有常规版FF 91、FF 91未...
日期:10-03
聚焦服务能力 提升政企用户满意度_提升企业服务的建议
通信世界网消息(CWW)提供优质服务,实现用户对业务、品牌的良好感知,是服务型企业追求的根本目标,更是通信企业的立足之本。当前,电信运营商在发展战略、经营理念、业务构建、服务...
日期:06-18
小米13 Ultra跑分出炉:第二代骁龙8 顶配16GB内存
快科技4月13日消息,小米已经宣布将于下周二召开发布会,正式推出高端徕卡旗舰小米13 Ultra。人民日报玖富普惠官宣至今已经两天时间,官方并没有公布任何关于新机的具体配置信息...
日期:04-13
收集贩卖公民数据信息 东莞多人被判刑「贩卖个人信息获刑3年以上」
  来源:法治日报  □ 本报记者  章宁旦  □ 本报通讯员 钟紫薇  网上冲浪、注册账号、信息上传等,都有可能透露个人信息,网络虚拟数据中所承载的公民个人信息、人格...
日期:10-03
花西子全套多少钱「花西子豪掷1万份花西币:免费给大家体验」
9月20日消息,继花西子发致歉信后,花西子官方微博今天发起抽奖活动。称大家近期的支持与建议,小西都收到了。为更好地服务大家,我们将抽100位送美妆礼盒,另外再抽10000人来体验我...
日期:09-21
时隔三年苹果再度对合同工“动刀” 据称约有100名招聘人员被裁_苹果中国裁员
来源:每日经济新闻   记者/蔡鼎; ;   编辑/兰素英;;   彭博社援引知情人士消息称,苹果公司(AAPL,股价173.19美元,市值2.78万亿美元)在过去一周解雇了约100名合同工制招聘人...
日期:08-19
数智新生长 低碳向未来 中兴通讯亮相2023国际数字能源展_2021年中兴通讯有未来吗
通信世界网消息(CWW)6月29日-7月2日,2023国际数字能源展在深圳会议中心举行。中兴通讯以“数智新生长,低碳向未来”为主题亮相本次大会,以新型算力网络设备以及丰富的能源数字化...
日期:07-01
2024五一档收官:总票房15.19亿!刷新同档期场次纪录_五一档总票房破纪录
快科技5月5日消息,猫眼专业版数据显示,截至5月5日晚上21点,2024年五一档(5.1-5.5)总票房为15.19亿。档期内总观影人次3757.9万,总场次240.5万场,刷新了中国影史五一档总场次数纪录...
日期:05-06
马斯克AI初创公司B轮融资获得60亿美元资金 将用于未来技术研发等_马斯克参与的项目
5月27日消息,据外媒报道,在xAI寻求融资60亿美元的消息出现之后仅3天,由马斯克创立并领导的这一人工智能初创公司,就在官网宣布他们的B轮融资获得了60亿美元的资金。从xAI当地时...
日期:05-28
若胜诉苹果需偿还至少2000万美元,美国加州税务要求修改税法「加州iphone税」
8 月 18 日消息,根据彭博社报道,美国加州税务部门希望修正现有税法,希望调整销售税,并要求苹果公司偿还至少 2000 万美元(备注:当前约 1.46 亿元人民币)的税金。报告称美国加州的几...
日期:09-17
中国移动发布九天·众擎基座大模型 并推出多个行业大模型
10月12日 消息:10月12日,中国移动推出了九天·众擎基座大模型,并基于该基座大模型发布了多个行业大模型,包括九天企业通话大模型、九天川流出行大模型等。2023综合性能更好的手...
日期:10-12
库克猝不及防! 印度突然摊牌, 给iPhone浇了一盆冰水
近日据媒体报道,印度正在效仿欧盟,拟于2025年6月实施一项旨在让所有手机标配USB-C接口的法规。库克懵了?懵了就对了!印度打脸苹果,果然让库克猝不及防。苹果产能向印度转移,库克的...
日期:12-07
vlog官网下载「VLOGGER官网体验入口 AI视频生成工具在线使用地址」
VLOGGER是一种从单张人物输入图像生成文本和音频驱动的讲话人类视频的方法,它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人类到3D运动扩散模型,以及2)...
日期:03-14
消息称下周骁龙8+ Gen 1新手机相继发布_骁龙8cx Gen2
IT之家 8 月 5 日消息,此前摩托罗拉 moto X30 Pro / razr 2022 新品发布会因故取消、一加 Ace Pro 新品发布会宣布延期。不过有消息称,下周一批骁龙 8+ Gen 1 新手机将进行正...
日期:08-20
抖音起诉百度商业诋毁 案件将于6月26日开庭「起诉抖音用户」
凤凰网科技讯 6月19日消息,据天眼查App显示,近日,北京微播视界科技有限公司、浙江今日头条科技有限公司与北京百度网讯科技有限公司商业诋毁纠纷案件新增开庭公告,被告为北京百...
日期:06-19
宇航员在空间站喝什么水「NASA实现空间站98%水回收利用率:宇航员喝的水比地球上的还干净」
IT之家 6 月 26 日消息,根据美国宇航局(NASA)本周公布的消息,国际空间站的环境控制和生命维持系统(ECLSS)实现了一项技术里程碑,已经能够回收利用宇航员在空间站产生的 98% 的水分,...
日期:06-26
番茄小说投稿要求_怎样给番茄小说投稿?旗下原创平台木叶文学网持续收稿
  为了挖掘和培育优秀的原创网络文学作家,建设鼓励优质、鼓励创新的网文生态,今日头条旗下番茄小说为广大网文创作者开放了原创文学平台(木叶文学网writer.muyewx.com)。通...
日期:05-09
三星Galaxy Watch6——你的节日必备健康时尚好物_三星galaxy watch功能介绍
随着母亲节将近,妈妈们迎来了属于她们的节日。作为新时代“辣妈”,在为孩子与家庭尽心尽力的同时,更应该关心自己的身体与健康状况。因此以三星Galaxy Watch6系列为代表的健康...
日期:05-11
顺丰同城急送以创新驱动即时物流行业升级_顺丰优选传统物流服务
  在刚刚过去的2020年,受疫情影响,“宅经济”全面爆发,即时物流行业迎来逆势增长。随着消费者对服务品质要求越来越高,以顺丰同城急送为代表的专业第三方配送平台在不断进行...
日期:12-18