您的位置:首页 > 互联网

移动智能计算「中国移动NICC新型智算中心核心技术布局和展望」

发布时间:2023-12-09 00:47:11  来源:互联网     背景:

通信世界网消息(CWW)当前,新一轮科技革命和产业变革正在向纵深发展,算力作为核心生产力,加速推动数字经济与实体经济深度融合,而算力基础设施作为算力的主要载体,其重要性不断提升。为强化政策引导,全面推动我国算力基中国移动NICC新型智算中心核心技术布局和展望础设施高质量建设和发展,工信部、中央网信办等六部门联合发布《算力基础设施高质量发展行动计划》(以下简称《行动计划》),从完善算力综合供给体系、提升算力高效运载能力、强化存力高效灵活保障等多个方面部署了25项重点任务。在完善算力综合供给体系方面,《行动计划》重点强调支持智算、通算等算力结构多元配置,逐步提升智算占比,加强智算与通算协同发展,加速西部算力网络枢纽节点集约化智算中心建设。由此可见,《行动计划》将智算发展放到了突出位置,为未来算力结构配置指明了方向。

近年来,中国移动大力推进算力网络的建设和发展,智能算力是算力网络发展的重中之重。智能算力是构建智能服务的核心和基础,中国移动于2022年启动新型智算中心(NICC,New Intelligent Computing Center)的规划建设,计划打造亚洲最大的单体智算中心,算力规模超5EFlops(1艾=100万T=10亿G)。

NICC的布局是中国移动算力网络“4+N+31+X”体系的一部分,按照“集中训练、分布推理、统一管控,弹性调度、自主可控、绿色低碳”的原则,梯次布局“中心节点、省节点和边缘节点”,统筹建设技术领先、绿色节能、服务全局的智算中心集群。NICC的设计规划是一个复杂的系统工程,涉及算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面,是对创新突破、技术引领的一次考验和挑战。为此,中国移动创新性提出NICC新型智算中心技术体系架构,从新互联、新算效、新存储、新平台和新节能等5个方面进行系统性设计,布局高速计算总线、全调度以太网、全开放DPU、多协议融合存储、全局统一存储、算力原生、智算资源池化、分布式训练、低碳液冷多项核心技术并开展重点攻关。

新互联:高速计算总线+全调度以太网

高速计算总线技术在AI服务器内起着至关重要的作用,用于实现服务器内多张GPU/AI卡间的高效数据传输和通信。随着大模型参数量达到千亿甚至万亿级,更大规模的GPU/AI卡间互联对带宽、时延以及抖动等提出极致性能要求。在这一领域,PCIe是应用较广泛的总线技术之一。但受限于带宽能力,其在支持大模型训练场景方面存在一定不足。为了实现与英伟达NVLink相媲美的性能,国内开放互联总线的创新已成为当务之急。当前,中国移动正在积极推动行业合作,促成服务器制造商、GPU/AI芯片厂商、交换芯片厂商等相关方深度合作,通过制定总线标准、推动技术原型和芯片研发、适时引入光互联技术等举措,促进国内智算基础设施的快速发展。

随着GPU/AI卡集群规模不断扩大,服务器间的网络性能成为制约智能算力提升的瓶颈。如何提升网络规模和性能,构建超大规模、超高带宽、超低时延的高性能智算中心网络,是提升算力水平的关键。中国移动创新提出了全调度以太网技术(GSE,Global Scheduling Ethernet),面向无损、高带宽、超低时延等高性能网络需求业务场景,兼容以太网生态链,通过采用全调度转发机制、基于PKTC的负载均衡技术、基于DGSQ的全调度技术、集中管理及分布式控制等,实现低时延、无阻塞、高带宽的新型智算中心网络,具有开放、标准、自主可控等优势。为体系化推动GSE网络技术成熟,中国移动积极构建标准技术生态和评测体系,大力开展创新试验,与各个行业合作伙伴携手合作,共同推动相关技术标准体系成熟。

新算效:全开放DPU

DPU是继CPU、GPU之后的数据中心“第三颗大芯片”,其本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器,可实现极低损耗、极强性能、极高灵活、极致安全。面对智算业务场景,DPU可以实现GPU裸金属的弹性云化管理,并满足中大规模模型训练和推理任务对网络、存储的高性能需求,提升极致算效。智算中心引入DPU面临软硬件标准化和高性能网络创新两大核心挑战。

中国移动2020年智能硬件质量报告(第二期)

一方面,中国移动制定了“1+5+4”软硬件标准体系,围绕管理、网络、存储、计算、安全五大软件系统,服务器硬件结构及供电、散热、辅助边带信号及带外纳管方案、管理运维策略四大方向,推动DPU与虚拟层软件、服务器硬件的标准化对接。另一方面,中国移动针对智算“零丢包”、低时延、高吞吐的网络需求,攻关DPU和RDMA协同方案,助力智算算效提升。

新存储:多协议融合存储+全局统一存储

NICC内需要存储设施承载海量非结构化数据,并支持通过文件、对象等多种协议,对存储数据进行访问和操作。随着业务应用对存储访问灵活性的需求增长,多协议互通融合存储已成为趋势,但是当前融合存储技术方案通过协议转换方式实现,还面临语义转换损失、安全策略差异等挑战。为了解决这些问题,中国移动联合产业合作伙伴,共同制定统一存储框架,重构存储底层数据结构,原生支持多协议融合。

超大规模的模型训练未来可能通过跨地域多中心并行开展,以有效拉通整体算力和存储能力,这就要求存储具有跨地域统一命名空间、统一存储资源调度和足够高的端到端数据交互性能。中国移动正在积极攻关跨地域多数据中心之间的全局统一存储技术方案,实现全局存储资源抽象。一方面,这种方案使得数据在不同数据中心之间的复制和同步更加透明,确保了数据的一致性和高可用性;另一方面,通过负载均衡策略,该方案使得应用程序可以就近访问数据中心,降低访问延迟,实现上层智算应用在不同数据中心之间无缝访问和操作数据。

京东客服电话人工95118怎么转人工

新平台:算力原生+智算资源池化+分布式训练

一直以来,智算生态是“AI框架+工具链+硬件”的软硬一体“竖井”生态,上层应用与底层智算芯片深度绑定,带来应用开发迁移成本高昂、智算资源难以集聚、智算芯片企业多而不强等挑战。为屏蔽异构硬件差异、融通智算生态,中国移动联合产业各方,以智算基础软件栈为要点,研发“芯合”算力原生平台,构建了支持AI应用跨架构开发、编译和运行的基础软件栈,使能“应用一次开发、跨芯部署迁移”。

算力原生包含四大核心功能:一是统一编程模型及套件,基于SYCL标准进行范式拓展升级,屏蔽异构编程模型的范式差异,使能多类异构系统环境下的同一应用、一套代码;二是源代码转换器可实现各类编程模型向SYCL的转译;三是跨架构编译器可实现智算图模型与通用计算代码的融合编译优化,并通过一次编译生成无感于异构硬件的跨平台互识统一流转文件;四是自适应运行时可面向多厂商建立统一算力抽象,支持计算任务与异构算力资源的即时互映射按需执行。

后续,中国移动将联合产业届持续完善“芯合”算力原生平台功能,支撑更多业务场景、融通更多异构芯片,繁荣智算产业全“芯”生态。

同等资源条件下可提供的有效算力,是衡量算力服务质量的核心指标之一,而智算资源利用率则是提升智算中心有效算力的关键。据公开数据统计,传统智算中心平均GPU利用率不足30%,资源分配颗粒度粗、与上层应用静态绑定、无法根据业务负载动态调配、碎片资源无法聚合等是主要原因。

中国移动智能创新中心

因此,中国移动在NICC首次引入智算资源池化技术,通过软件定义革新传统、低效的硬件管理方式,从集中调度、按需分配、动态伸缩和碎片聚合等多个维度实现智算资源的敏捷化管理;可实现对异构智算资源池化整合,根据业务的实际需求进行精细化分配,并智能感知业务负载的潮汐情况,在多个智算任务间动态迁移资源;支持对小颗粒度的碎片聚合管理,进一步实现跨节点远程加载等效果,从多个维度促进智算资源利用率提升。

智算资源池化技术在小模型训练、推理等应用场景,可显著提升智算资源利用率,针对大模型训练或多应用混合场景,适配更多的硬件资源种类是下一步演进的目标。在此,笔者呼吁产业界合作伙伴共同构建智算池化产业生态,实现硬件、平台、应用等多种技术的融通和标准化发展。

伴随大模型的发展,深度学习模型规模、训练数据量增大等挑战使单个计算节点无法满足训练需求,且训练过程耗时量巨大。NICC面向大模型“训推”需求,集合各类同、异构算力资源建设算力资源池,为大模型训推提供算力支撑。针对智算中心分散的算力资源,需要通过特定技术实现训练任务高速并行。中国移动基于智算中心建设及运营需要,着力攻关分布式训练技术,研究面向同构、异构算力资源池,将训练任务划分为多个子任务,通过在多台计算机上并行执行,实现高效、可靠和快速的深度学习模型训练,提高模型准确性和效率。

新节能:液冷技术

大眼橙投影仪说明书

AI芯片性能持续提升也带来了芯片功耗的不断攀升,一台配置了8张高性能AI芯片的智算服务器功耗可以达到10kW,是通用计算服务器的20倍以上,传统的风冷散热已经无以为继。液冷技术具有超高的散热效率,是智算中心解决散热压力和节能挑战的必然之选。液冷技术路线主要有冷板式、浸没式和喷淋式。综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案。其中,冷板式液冷在初始投资成本、网络运维模式、生态成熟度、机楼改造难度、工程实施进度等方面更具优势,目前中国移动在NICC建设中使用冷板式液冷,并在此基础上实现了液冷整机柜和CDU解耦。接下来,中国移动将继续推动液冷技术成熟,聚焦液冷服务器和液冷机柜的接口标准,优化液冷环境下运维和管理能力,促进产业链上下游生态成熟和能效利用水平不断提升。

近日,美国再次收紧了对我国高端AI芯片的出口管制,在此背景下,中国移动打造NICC,既是磨炼自身在智能算力领域技术研发能力,又增强了对各类算力资源的统筹整合能力;同时也为整个人工智能行业在算力基础设施领域的前瞻性探索及布局给出了建议,以此助力国内智算产业实现跨越式发展。

中国移动智能研究院


返回网站首页

本文评论
极氪汽车回应暂缓 IPO:上市工作正有序推进_极氪汽车新闻
IT之家 11 月 30 日消息,消息显示市况疲软之际,极氪准备暂缓在美 IPO。对此,极氪方面表示,公司已向美国证监会公开递交招股书,各项筹备工作正在有序推进中。今年 11 月 10 日,吉利...
日期:11-30
寺库二季度营收13.06亿元 净利润为740万元_寺库年销售额
9月4日消息,寺库对外发布2020年第二季度财报,数据显示,寺库二季度营收13.063亿元,相比较下去年同期为17.121亿元;非美国通用会计准则下净利润为740万元,相比较下去年同期为4300万...
日期:08-01
百度技术沙龙一周年成绩斐然 “开放”驱动中国互联网(百度20周年年会)
  自从人类社会的发端开始,技术就与每个人息息相关,一刻也没有离开过。互联网等先进技术的诞生更加让人们坚信技术是社会进化的决定性力量。未来,我国互联网发展要从“大国...
日期:07-27
AOL宣布收购个人档案社交网站About.me
  据国外媒体报道,AOL于美国当地时间周一下午宣布,公司已收购个人档案社交网站About.me,并将其并入由AOL高管布莱德·加林豪斯(Brad Garlinghouse)所领导的消费者应用部门。...
日期:07-25
《旷野之息》发售6周年:续作《塞尔达传说:王国之泪》发布新预告
2017年3月3日,任天堂的新一代游戏主机Nintendo Switch上市,同步推出的还有首发护航游戏《塞尔达传说:旷野之息》。今天,在《旷野之息》发售6周年之际,任天堂发布了续作《塞尔达传...
日期:03-03
中关村买“苹果”好比逛菜市 早中晚三个价(中关村的苹果手机为什么便宜)
  Iphone5概念机即将上市的消息早已不胫而走,这款概念机被认为是今年最值得期待的机王,但这并未减少Iphone4的市场需求。在中关村,Iphone4依然是稀缺物,一些卖场里,Iphone4竟...
日期:07-25
会议记录太费时费力?搜狗AI录音笔C1 Pro让你畅享智慧办公的高效体验
  又到了毕业季,大学生开启职场模式,作为一枚职场小白,记录是快速进入职场角色的方式。但是,手写记录通常会跟不上讲话人的速度,存在漏记、记错的情况。有什么方式能快速解决...
日期:09-04
OpenAI 在 ChatGPT 推出前雇佣多名谷歌员工帮助改进产品「open a google account」
2月15日消息:据The Information援引消息人士的话报道说,最近几个月,OpenAI这家大热的人工智能聊天机器人ChatGPT和图像生成器DALL-E背后的初创公司已经雇用了十多名前谷歌员工...
日期:02-15
《2023年AI应用市场洞察》报告:上半年下载量同比增长114%,突破3亿次
7月20日 消息:2023年上半年,全球 AI 应用市场呈现快速增长的态势。据SensorTower《2023年 AI 应用市场洞察》报告显示,AI 应用下载量同比增长114%,突破3亿次,超过2022年全年水平...
日期:07-20
华为Mate 60 Pro推送鸿蒙OS 4 116版升级!系统、相机全优化了
快科技9月16日消息,华为Mate 60 Pro开售已经有半个多月了,这期间华为工程师们也在加班加点对新机优化,陆续推送了多个版本系统更新,提升用户用机体验。日前,华为向Mate 60 Pro推...
日期:09-16
比亚迪赵长江:腾势 D9 前期设计、研发方面已花费 20 亿元左右_比亚迪赵长江跳槽
IT之家 8 月 25 日消息,8 月 23 日,腾势 D9 正式上市,新车提供DM-i 超级混动和纯电 2 个版本 7 款车型,售价区间为 32.98 万元-45.98 万元。在新车上市前,腾势销售事业部总经理赵...
日期:09-23
如果做出媲美OLED的MiniLED电视!海信电视65U8H评测「海信电视机65寸uled/oled比较」
一、前言:集海信最新显示技术于一身的U8H9月20日,海信带来了全新的U8H系列,定位于海信ULED电视的高端旗舰,号称画面素质可以提供媲美OLED电视。而我们也收到了海信电视65U8H,让我...
日期:10-15
你爱烹饪吗?研究称做饭可降低四成死亡率_做饭的人寿命更长
吃完饭谁洗碗,这是人类烹饪史上一个堪比哲学三问的永恒问题。淘宝技术团队有多少人其实做饭、洗碗、收拾餐具等家务活动可以帮助人们预防心脏病,降低死亡风险。据发表在《Publ...
日期:02-25
AMD官宣重磅发布会!事关AI的未来_amd发布会2022
AMD官方宣布,将于北京时间2023年12月7日2点,举办主题为Advancing AI”的新品发布会。AMD表示,届时将会展示AMD与合作伙伴如何驱动AI的未来。看起来,这次活动的主角应该是Instinc...
日期:11-11
苹果30w印度制造「第一款原汁原味的印度产iPhone来了!郭明錤:iPhone 17将首次在印度研发」
快科技11月5日消息,天风国际证券分析师郭明錤日前发文称,预计iPhone 17标准版的NPI将于2024年下半年在印度展开。小米11 ultra首发价据悉,这将是苹果首度在中国以外的产线开始...
日期:11-05
专访王兴军:3年攻克光子芯片“大脑” 打通规模应用最后一公里
文丨崔玉贤出品丨网易科技《逐梦星空》栏目组核心问题:1、您和团队研发的“由集成微腔光梳驱动的新型硅基光电子片上集成系统”成果在Nature发表,看报道说研究团队历时三年协...
日期:07-19
iphone翻新手机「iPhone翻新机供不应求:利润是安卓10倍」
与之相比,安卓手机表现不如iPhone。三星的市场份额从2021年的28%下降至2022年的26%。报告指出,用户认可度提高、保值性高以及易用性优秀是iPhone品牌的优势所在。小米电池实际...
日期:04-26
谷歌的市场份额_谷歌4月市场份额下滑 对手改版所致
  据国外媒体报道,调研公司ComScore最新数据显示,今年4月份,谷歌在美国的搜索市场份额下滑了近1个百分点。   ComScore数据显示,今年4月,谷歌在美国的搜索市场份额为64.4%,低...
日期:07-29
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】国产模型开源纪录,又被刷新了!上海AI实验室等机构开源的InternLM-20B,竟然能和Llama2-70...
日期:09-22
英伟达 RTX 4080 公版显卡实物曝光,与 RTX 3090 很像_3080显卡和RTX 5000
IT之家 9 月 2 日消息,英伟达 RTX 40 系列显卡预计会在 9 月或 10 月发布,今日,爆料者KittyYukko 放出了一张标有“RTX 4080”的显卡图片,并称“和 RTX 3090 公版非常像”。从图...
日期:09-07