您的位置:首页 > 互联网

以网络赋能算力 构建智算时代新型基础设施_推动网络赋能

发布时间:2024-05-06 21:09:23  来源:互联网     背景:

通信世界网消息(CWW2022年11月问世的ChatGPT以其高质量的语言生成能力、强大的文本理解能力以及广泛的应用场景,迅速成为业界关注的焦点,助力大模型成为AI(人工智能)应用新前沿。公开资料显示,截至2023年11月,国内至少有200家大模型厂商推出各自的大模型产品,其中通用及金融垂直领域大模型落地最快。随着AI技术的高速发展,以生成式大模型为代表的AI方案从专业技术领域渗透到生产生活的多个领域,各类智能化应用在经济建设、科技创新、生产力提升等方面扮演着越来越重要的角色。

为获取更好的模型性能,充分激活产业赋能效应,大模型的参数规模逐步增加到万亿级,并逐步向百万级超长序列发展,促使大模型训练、微调、推理各阶段算力需求日益攀升,智算基础设施的重要性和价值进一步凸显。然而,在智算基础设施建设过程中,尚面临投资、能耗、技术、竞争等多重挑战,因此,兼顾技术可行性和经济可行性,利用网络资源禀赋提升算力效能,构建以应用为导向、资源融合为核心的算力供给体系,是智算时代构建新型基础设施的关键举措。

永无止境的算力需求

早期如围棋机器人AlphaGo等专用AI模型,其参数量一般仅为百万量级。而第一代生成式预训练模型GPT-1的参数规模就已达到1.17亿,GPT-2增加到15亿,GPT-3则扩展到1750亿,仅模型训练阶段所需算力当量就相当于1000PFlops智算中心训练3.6天。GPT-4的参数规模约为1.8万亿,折合算力当量为249个PD(PetaFlops-Day),需要1000PFlops智算中心运行长达249天才能完成训练过程。

此外,在模型推理即日常运营阶段,人机交互带来的数据处理需求同样是一笔不小的算力开支。以ChatGPT为例,OpenAI前期发表的论文《Scaling Laws for Neural Language Models》显示,推理阶段算力需求是模型参数数量与训练数据集规模乘积的2倍,假设每轮对话产生500 tokens(约350个单词),则每轮对话产生的算力需求为0.175PFlops,如果按照ChatGPT每日2500万的访问量,假设每次访问发生10轮对话,则所需算力为4.375×107 PFlops。综合考虑有效算力比率因素,则ChatGPT每日对话实际算力需求约为1.46×108PFlops。在迭代微调阶段,即面向各类细分行业的大模型应用,算力需求与模型迭代速度存在正相关性,更快的迭代速度往往伴随着更高的算力消耗和更大的成本支出。

因此,大模型的蓬勃发展牵引着算力尤其是智能算力需求的快速增长。据英伟达测算,未来十年算力每年将增长4倍,十年以后累计增长100万倍。对于我国算力的发展,IDC和浪潮信息联合发布的《2022—2023年中国人工智能计算力发展评估报告》指出,2022年中国智能算力规模达155.2EFlops,预计到2026年将达到1271.4EFlops。2021—2026年期间,预计中国智能算力规模年复合增长率达52.3%,同期通用算力规模年复合增长率为18.5%。我国算力结构的演化趋势进一步印证了以大模型为代表的智能化应用对智能算力的高度依赖,智能算力正在成为支撑AI稳步发展的新动力、新“引擎”。

作为智能算力的主要载体,智算基础设施的建设是大模型发展的重要环节。智算基础设施是指以GPU等AI训练芯片为主构建的智能计算服务器集群,包括计算、存储、网络等硬件基础设施,以及多样化的机器学习框架、算法和相关的工具软件等。随着AI大模型逐步进入稳健发展期,通过智算的生产、聚合、调度和释放,为AI应用提供更大的计算规模和更快的计算速度,提升单位时间单位能耗下的运算能力和质量成为核心诉求。

网络智能算法

智算基础设施建设是一个长期过程,难以一蹴而就

国家信息中心联合浪潮信息发布的报告显示,“十四五”期间,在智算中心实现80%应用水平的情况下,城市/地区在智算中心建设投入方面的增加对创新产出的贡献率约为14%~17%。智算中心是服务于AI应用的数据计算中心,是智算基础设施的主要形态,如何建设支撑大模型发展需求的智算中心等智算基础设施,不仅涉及计算芯片、互联网络、节能减碳、开发框架等技术问题,还需要考虑投资成本、运营维护、升级演进等商业因素,同时兼顾技术可行性和经济可行性。

从技术角度讲,构建统一的超大型智算中心是最为理想的解决方案,该方案具有高效的数据处理能力和存储效率,可为广泛的应用场景提供强大的“算力底座”,但在实际过程中,该方案会遇到多方面的挑战和制约,在现阶段是难以实现的。

首先是投资成本的挑战。相比于超级计算中心(简称“超算中心”),虽然两者都需要大量的资金和时间投入,包括硬件设备购置、基础设施建设、软硬件平台开发等,建设周期往往从几个月到几年不等;但与超算中心涉及气象预报、地震模拟等国计民生领域不同,智算中心更关注产业智能化升级和潜在的经济效益,高额的投资成本将在一定程度上影响企业投资决策。但反过来讲,如果只考虑智算基础设施的出租业务,供应方仅需具备资本、土地和能耗指标就可以投资智能算力,入行门槛较低,因此已出现一批跨界而来的智算基础设施建设运营方。

其次是散热、供电等能源消耗的挑战。大模型是名副其实的“耗电大户”,某AI创新公司的联合创始人在社交平台上分享了他与微软工程师的对话,微软工程师指出,GPT-6的训练集群项目之所以没有选择将训练集群集中在同一个区域,是因为根据尝试后的经验,在同一个区域放置超过10万块H100 GPU会导致电网瘫痪。在AI的成本结构中,电力是继芯片之后的又一核心成本。拥有1700多亿参数的BLOOM模型,仅前期训练阶段,耗电量就达到了43.3万千瓦·时,相当于我国400多人一年的用电量。参数规模更大的ChatGPT每天则需消耗50多万千瓦·时的电力来处理2亿用户的请求,相当于美国家庭每天用电量的1.7万多倍。因此,大模型的电力消耗也是智算中心规划布局的关键考量因素。

再次是技术路线的挑战。随着AI大模型的指数级增长,尤其是英伟达在GPU方面的技术及市场优势,让其IB(“无限带宽”技术)成为GPU服务器的首选网络互联方案。基于单一或少数厂家的硬件、软件和服务解决方案构建的智算中心,将形成深度集成的技术体系,在后续升级、扩展、迁移时面临灵活度缺乏等问题,影响智算基础设施的可持续演进。

最后是行业竞争和技术“壁垒”的挑战。一是大型科技公司、电信运营商、云服务商等纷纷布局智能计算,行业竞争日趋激烈,部分企业凭借先发优势在产业链和市场上占据了极强话语权。二是我国高端智算芯片供应能力不足,即便花费大量资金也难以在短期内弥补硬件差距。

iqooneo7发布会时间

在资金、能耗、运维、技术、竞争等多重因素联动作用下,我国智算中心总体呈现小规模、多层次的发展态势,企业分地域、分时期、分阶段建设智算中心的现象较为普遍。为满足日益增长的智算需求,依托网络资源禀赋,将离散的智算中心资源进行整合,实现算力的高效利用和资源共享,是当前阶段突破算力供给难题的有效发力点。

硅革命比芯片还重要

利用网络能力提升智算基础设施效能

鉴于我国在短期内无法满足建设超大规模集约型智算中心的现状,可通过构建先进的网络基础设施,解决单点算力不足的问题,促进多地、多方、多时建设的智算中心间进行有效协同。

网络科技赋能

以机内互联提升单点算力密度

机内互联是通过先进的总线技术提升单算力节点内的GPU互联规模。例如英伟达NVLink 5.0技术具备1.8TBit/s互联带宽,支持百块卡级别的互联规模。目前英伟达已发布的DGX GB200 SuperPOD系统就在NVLink 5.0基础上,支持576个芯片的互联互通。国内厂商如华为、寒武纪也纷纷推出了自研的互联总线协议,通过国产化的总线技术实现机内互联。

以提升网络承载效率为目标的机间互联

以提升DCN(数据中心网络)承载效率为目标,打造满足超大规模、超低时延、超大带宽、超高可靠性需求的网络设施。当前业界主流的两种方案是IB和RoCE(基于以太网的无损传输),两者分别代表了高性能网络的两种不同建设思路,前者虽然能提供低时延、高带宽的网络,但生态封闭且成本较高;后者基于标准以太网,具有更好的兼容性和成本优势,但在性能方面还需进一步提升。目前,国内外也出现了一些新动向,例如致力于突破传统以太网性能瓶颈的超以太网联盟UEC,从物理层、链路层到软件层改进以太网技术,以实现大规模组网效率和性能的提升。

以长距组网技术实现多节点互联

将多个独立的智算中心通过网络技术互联成一个大型集群,以实现跨数据中心的算力协同和资源共享。据报道,谷歌完成大模型Gemini Ultra的训练任务就采用了该策略。然而,针对单点算力不足的问题,通过长距离组网实现无损互联的商业解决方案还处于探索阶段,尚无法规模化应用。现有的IB和RoCE在实现长距离无损互联方面存在限制,未来还需“产学研”各界合力突破距离瓶颈。

以任务调度实现多集群协同

智算业务偶发性和可调度性特征为任务调配提供了基础。偶发性表现为智算任务在较长运行周期内仅短暂占用资源,其余时间无算网资源消耗;可调度性则体现在任务的算法依赖关系较为简单,如基于相同开发框架的大模型训练任务,易于迁移至同类资源池执行,与资源归属方或运营方的绑定关系较弱。因此,可通过特定的任务调度策略为用户业务匹配不同的智算服务集群。

目前来看,面向智算场景的任务调度策略主要有三类。

一是基于控制器对接的集中管控方案。此方案将集中的控制器与各个智算资源控制器接口对接,实现对全局算力资源的统一调度与管理。

二是基于路由协议扩展的算力网关方案。此方案通过对传统路由协议进行扩展,使其具备感知多方算力资源信息的能力,从而实现算力调度。例如中国电信研究院研发的算力网关,通过增强路由协议识别并引导数据流至最合适的算力节点,确保任务执行的高效与流畅。

三是基于DNS(域名系统)解析的算力互联网方案。该方案利用DNS域名解析机制,借助DNS系统解析请求,将任务透明传输至最佳算力提供方,打破地域界限,实现智算资源的互联互通与灵活调度。

以上述三种任务调度方案为基础,业界已成功开发出多种智算调度升级方案,有效地应对了智算中心算力不足的问题,实现全局智算资源在更广范围的高效利用。

结语

智算基础设施建设将有效促进AI产业化和产业AI化,是支撑数字经济发展的重要“底座”。基于短期内无法解决超大规模集约型智算中心建设的难题,可依托我国网络资源禀赋,采用机内互联、机间互联、多节点互联以及多集群协同的网络手段弥补单点算力差距,充分释放每个智算单元的浮点运算能力,催生数字经济新动能。


返回网站首页

本文评论
小米miui14「小米请了一位大师参与小米14 Ultra影像 博主:这位大师家喻户晓」
快科技2月8日消息,博主数码闲聊站透露,小米14 Ultra最大亮点是它全新构建的"小米×徕卡×大师"移动影像审美铁三角。沈南鹏美团占股lol什么天赋加攻击力数码闲聊站还指出,小米...
日期:02-08
鸿蒙OS 3更新:众多机型可适配「鸿蒙os适配名单终于官宣」
在五一劳动节假期前夕,华为官方也提前公布了一批HarmonyOS 3升级进展,具体机型如下:华为Mate 10、Mate 10 Pro、Mate 10保时捷设计、Mate RS保时捷设计、P20和P20 Pro、畅享50;...
日期:04-28
风冷超频:英伟达RTX 4090游戏显卡算力轻松突破100 TFLOPs「rtx3070超频算力」
随着评测解禁,英伟达 GeForce RTX 4090 也被人压榨出了 100 TFLOPs 的算力,成为了迄今性能最为强悍的游戏显卡。作为参考,公版(Founders Edition)显卡的默认性能为 83 TFLOPs(低了...
日期:10-13
丰田“加价神车”半年销量暴跌30%!雷克萨斯ES又全面涨价「雷克萨斯es涨价了」
  作为丰田旗下的豪华汽车品牌,雷克萨斯一直的销量都很不错,特别是雷克萨斯ES,可以说是占据了雷克萨斯的半壁江山。即便是被网友疯狂吐槽“同级别动力最弱”,但也丝毫不影响该...
日期:09-25
ai换脸视频犯法吗「AI换脸小视频泛滥网络 日本人出手:用AI检测真伪」
AI人工智能技术是好东西,但是它也会带来风险,这几年很多人应该听过deepfake换脸AI,这种换脸小视频满天飞,已经被滥用,如何识别AI小视频也成为一件大事,现在日本国家信息学研究所 (...
日期:01-17
Uber:正在接受美国国税局的税务审查
  据国外媒体报道,美国时间周二,网约车公司Uber的股价逆转了早些时候在盘前交易中的涨幅,此前这家网约车巨头表示,美国国税局(IRS)正在对其税收事务进行审查。   据国外媒...
日期:08-05
李长春赴深圳考察A8音乐等文化企业
  近日,李长春在中共中央政治局委员、广东省委书记汪洋的陪同下,先后来到广州、深圳等地,深入企业、宣传文化单位和第16届亚运会场馆建设工地,就深入贯彻落实科学发展观、加快...
日期:07-29
瑞穗银行下调iPhone 15系列产量预期 降幅为13.1%「瑞穗银行app」
[TechWeb]8月28日消息,据外媒报道,日本瑞穗银行最近修正了2023款iPhone的产量预期,主要原因在于供应问题,这加剧了关于iPhone15系列手机的热议。创维swaiot平板8月上旬,长期关注...
日期:08-28
AI正在改变孩子的学习方式,猿辅导带你发现网课中的领先科技_猿辅导ailab
孩子英语口语发音不准?孩子不会用英语表达?在孩子学习英语的过程中,这些口语练习经常困扰着大家,家长们也不知该如何帮助孩子去解决这些问题。其实,在猿辅导的英语课堂上,AI正在解...
日期:08-01
哪吒汽车CEO:车企的努力被某宝几十块的东西打败了_哪吒汽车是谁
不少车主都喜欢在自己的车上配置一些车载配件,方便用车同时还有美观装饰效果。不过,一些太拉胯的配件,汽车产品经理看到可能会血压飙升。日前,张勇在微博中表示,整车厂座和椅厂在...
日期:04-21
养猫增加患精神分裂症风险或与“弓形虫”有关?三甲医院医生:缺少实质性证据
图源:Midjourney自动生成出品|科技作者|周锦童现如今,最好的炫富方式莫过于一句“我养猫了”。猫咪独立、爱干净、不吵闹,所需生活空间也不大,也不需花费大量时间和精力陪伴,还能给...
日期:12-13
小米civi的处理器怎么样「小米Civi 3上架:外观公布 首发天玑8200 Ultra」
小米Civi 3即将于5月25日正式发布,目前已经在京东自营店上架接受预约。这款手机采用联发科天玑8200 Ultra芯片,搭载小米影像大脑30余个算子,并在天玑8200 Ultra上实现了强化与...
日期:05-23
马斯克爆粗口怒喷广告商 此前多家广告商暂停在X上投广告_马斯克喊xch
特斯拉CEO埃隆·马斯克在2023年DealBook峰会上发表演讲,针对他在社交平台X(原推特)上点赞一条“反犹太”言论,导致美国多个广告商暂停在X上打广告的事情,进行了回应,并且骂了一句...
日期:12-01
Redmi Buds 5 Pro电竞版官宣:20ms级低延时_redmi buds3 测评
快科技11月28日消息,Redmi红米手机今日官宣了一款新品Redmi Buds 5 Pro电竞版。从官方的海报来看,Redmi Buds 5 Pro电竞版的设计与标准版基本一致,采用鹅卵石充电仓设计,不过电...
日期:11-29
玩的真大!哪吒张勇想把周鸿祎迈巴赫买了 给哪吒L车主抽奖_哪吒创始人张勇
快科技4月23日消息,昨日晚间,哪吒L正式上市,新车推出4款车型,售价区间为12.99-15.99万元,顶配为周鸿祎红衣版”。同时,哪吒还为红衣版车主,送出5000元现金优惠,以及红衣特别礼盒。而...
日期:04-23
淄博烧烤是第一吗「河南一地开会分析淄博烧烤为何出圈 争取搞出第二个“淄博”」
最近,全国各地都出现了很多“出圈”现象,其中淄博的烧烤文化备受瞩目。南阳市社会科学界联合会在4月25日专门召开了一场研讨会,旨在探讨“烧烤出圈”现象背后的原因和路径等方...
日期:04-26
吉隆坡苹果直营店「消息称苹果正筹备马来西亚首家Apple Store零售店」
  1月28日消息,据国外媒体报道,苹果Apple Store零售店将首次引入马来西亚,已开始为进军马来西亚零售市场招聘员工。  据悉,苹果最近在其网站上发布了马来西亚门店的招聘启...
日期:01-28
200多万程序员省心了 华为鸿蒙OS只需写一次代码:多个设备通用
HarmonyOS鸿蒙系统是华为自己开发的操作系统,不仅可以用于智能手机、平板电脑等设备,还可以用于海量的IoT物联网设备,华为表示已有3.2亿华为设备用上了鸿蒙OS。在生态方面,鸿蒙O...
日期:11-08
Vision Pro售价2.5万还不赚钱 苹果销量目标腰斩三次:仅15万台「vision phone」
快科技6月8日消息,日前的WWDC大会上,苹果发布了旗下首款MR混合现实头显Vision Pro,售价3499美元,人民币2.5万元,明年才正式上市。2.5万元还不是国内行货的价格,算上其他费用,国内轻...
日期:06-08
马斯克:希望20年内在火星建造自给自足城市(火星什么时候能居住,马斯克)
苹果公司也曾岌岌可危过,乔布斯回来之后msn聊天室京东智能联合腾达发布智能无线路由器信息   特斯拉和SpaceX公司CEO埃隆·马斯克周末重申,他坚定不移地致力于殖民火星,并让...
日期:08-16