您的位置:首页 > 互联网

中国电信对智算技术创新的探索与思考_中国电信对智算技术创新的探索与思考

发布时间:2024-02-21 01:17:00  来源:互联网     背景:

通信世界网消息(CWW)ChatGPT的横空出世引爆生成式AI“新赛道”,大模型规模从2017年的千万级参数上升到2023年的万亿级参数,5年超万倍的规模增长带来大模型训练、推理算力需求的急剧膨胀,对智算基础设施提出新的要求和挑战。

一是大模型推动算力需求呈指数级增长。以OpenAI的GPT系列为例,GPT-3模型参数1750亿,完整训练需要约3.14E11(TFlops)的每秒浮点运算量;而下一代GPT-4模型参数1.8万亿,完整训练需要约2.15E13(TFlops),算力需求增长约70倍。二是大模型对通信互联提出更高要求。单卡单机算力有限,大模型的训练需要多卡多机并行,但计算机总线以及网络通信带宽、时延等成为集群不断扩容的制约因素。三是智算中心资源利用率高低不均。智算中心全域分散建设,单中心算力规模百P至1EFlops(包括数千至数万智算芯片),现有调度技术难以针对跨域、超大规模智算算力进行灵活高效调度。四是大模型真正实现普惠化离不开框架与平台的一站式使能。大模型的构建与应用涉及算法设计、数据处理、分布式训练、推理部署等众多环节,面临着“上手难、成本高和落地慢”的挑战,而AI框架及全流程覆盖的一站式服务平台,是提升AI研发与应用效率的关键。

大模型时代的智算需求,亟需芯片计算能力、总线能力、网络能力、调度能力和框架平台使能等多技术领域有所突破,而这不仅是技术创新的突破,也是产业发展的新机遇。

智算基础设施核心技术亟待升级突破

电信智能产品

电信智能产品有哪些

AI芯片是智算基础设施的核心

AI芯片是智算算力供给的基础保障,软件生态是制约芯片发展的最大障碍。AI芯片按使用场景可分为GPGPU和ASIC两种技术路线:以英伟达和AMD为代表的GPGPU是当前大模型生态的主流路线,通过在芯片上集成数万个小计算核实现并行计算,并逐渐引入专用计算核实现矩阵乘法的加速,通过CUDA软件生态支持数千种模型算子加速模型训练;以谷歌TPU和华为昇腾为代表的ASIC采用面向深度学习的专用计算架构,相比GPGPU减少了高精度计算核,在能耗比和芯片面积等方面具有一定优势,但受限于不支持CUDA生态兼容,通用性和可编程性方面成为最大阻碍,有待性能提升和生态完善。

国产AI芯片适配是推动智算长效发展的关键。美国商务部于2023年10月17日发布的新一轮芯片禁令,导致英伟达用于大模型训练的H100、H800、A100、A800、L40s等主力AI芯片均被禁售。长期来看,国产化替代是必然选择,但国产芯片架构各异,驱动、软件开发接口难以兼容,导致应用跨架构迁移极为困难,“生态竖井”现象严重,需要通过技术路线收敛和芯片适配优化技术创新解决这一困境。百度的芯算一体平台提供针对多类型AI芯片适配调优的工具,可以极大提升算力使用效率。

高性能智算互联是大规模算力构建的必要条件

高带宽互联总线助力多芯片提高分布式训练性能和效率。总线是服务器主板上不同硬件之间进行数据通信的管道,以高速数据传输支持多卡间的分布式训练推理。行业主流的总线互联技术包括PCIe、NVLINK和其它私有总线。

高效、大规模智算网络是智算集群建设的关键。高性能网络协议和集合通信库决定了大模型的并行训练效率,集合通信实现多GPU卡间数据的交换与聚合,RDMA高性能协议技术实现GPU间的网络高吞吐能力,目前主要通过IB和RoCE技术实现。IB内置流控技术,对无损支持较好,但属于端到端一体化方案,成本高且不兼容以太网;而RoCE技术通过对以太网技术增强实现无损能力,目前头部互联网厂商(如百度、阿里、腾讯等)采用RoCEv2的自研方案部署,并通过自研方式在网卡、交换机、协议、流量控制、通信库、网络拓扑和端到端管控等方面进行优化,端网协同构建高性能的RoCE网络。

算力调度是智算高效供给的重要手段

跨域分布式调度助力泛在算力资源的高效协同。智算中心依托分布式云架构布局多个地理区域,跨域分布式调度技术统一整合各级智算算力资源,在供给侧形成全局统一算力资源视图,协同完成资源供给;在需求侧面向各垂直场景,支持AI、HPC多场景统一调度,构建业务调度目标。跨域分布式调度支持应用、算力、存储、网络、能耗深度感知和多维度智能调度,实现跨智算中心云网资源的有效协同和全局管控。

异构算力池化融合多元算力提升利用率。将多厂商GPGPU、ASIC等异构算力资源进行统一纳管和池化,通过构建面向多元算力的高效调度平台,实现智算需求与异构算力的有效适配、算力要求与硬件性能的有效对接、异构算力在节点间的灵活调度等,将各类异构算力协同处理以发挥最大的计算效力,为多样化AI应用场景提供高性能、高可靠的算力支撑。

AI框架一站式服务有效提升开发部署效率

AI框架实现大模型与硬件解耦,进而提高开发效率。AI框架向上支撑大模型搭建,向下屏蔽底层硬件差异以提高执行性能,按使用场景可分为分布式训练框架和推理加速框架。分布式训练框架采用多种并行策略以及显存优化、计算通信加速库等技术,可支持千亿/万亿级参数的大模型训练。当前推理加速框架采用包括量化、算子融合、动态批处理等在内的多种加速技术,可极大降低大模型推理对算力和显存的要求,实现高效使用。

一站式服务跨越算法与业务鸿沟实现普惠。一站式大模型服务以LLMOps思想为指引,涵盖了数据处理以及大模型开发、训练、微调、部署、维护、优化的一整套流程和最佳实践,使大模型技术应用于商业场景并构建完整的商业化运营体系,从而打造大模型的“技术—商业”闭环。

中国电信融智入云,积极探索智算核心技术创新

攻关芯片核心技术,夯实自主算力底座

中国电信积极推动芯片评测适配,指引国产算力发展。面向业界主流的百亿/千亿级别开源大模型训练、微调与推理场景,制定统一测试标准,已开展国内数十家厂商的多款产品与英伟达芯片对标评测。结合性价比以及软件生态的完备性、易用性等综合因素,初步形成智算芯片的综合评估适配体系。中国电信基于RISC-V指令集攻关自主可控智算芯片。

中国电信最新技术创新

中国电信基于RISC-V指令集统一通算与智算芯片生态,前期自研基于国产64核RISC-V CPU通算芯片与国产NPU/TPU等AI加速芯片的多形态边缘计算一体机方案,构建RISC-V异构AI计算软硬件生态,并在浙江、江苏等省率先开展试点应用。未来将联合国内RISC-V指令集AI芯片厂商及相关高校,推进RISC-V开源编译开发框架的研究。

打破算力瓶颈,构筑新型智算互联

中国电信联合合作伙伴共同攻关超级节点内部高性能互联的关键技术。中国电信面向万亿级参数、万卡级别互联场景,大力攻关高性能智算总线互联,打造超级节点;聚焦攻关高性能总线互联的端对端、一致性、内存池化等关键技术,与合作伙伴共同推进高性能互联技术的总线与网络融合仿真验证及应用适配,打造软硬协同全栈加速能力;共同研发高性能总线互联技术相关产品,打造软硬协同全栈加速能力,推动智算中心标准建设。

苹果不送充电器违法吗

中国电信开展超大规模智算中心组网和无损互联技术联合创新。综合考虑网络设备现状与实际业务需求,针对大模型训练网络研发的端网融合拥塞控制算法,通过端网协同实现“主动+被动”拥塞探测和精细化调控机制,满足网络高吞吐、低时延、高公平性需求,并在中国电信大科创装置中构建千卡规模网络拓扑仿真环境,开展拥塞控制技术仿真和物理实验;针对自研拥塞控制单元与集中控制器,在主流交换机的典型智算组网拓扑中进行测试,在时延、拥塞触发等指标上具有优势。同时,研发自适应路由、在网计算、智能网卡乱序重排等智能化路由增强技术,联合产业界积极制定行业标准,实现异构厂商之间的协议互通。未来,中国电信将持续探索引入800GE高速链路,满足智算中心对超大带宽、超低时延、超高性能的要求,发挥运营商责任担当,助力中国实现“以网强算”。

推出新型平台,融通调配异构算力

中国电信打造运营商首个“云智超”一体化算力平台“云骁”,依托天翼云GPU裸金属及云主机、HPFS并行文件系统、RDMA网络等底座能力,以技术创新构筑高性能算力底座,提供智算、超算、通算多样化算力服务。同时,基于“国云”资源推出天翼云算力分发网络平台“息壤”,具备调度全网算力和多云资源能力,涵盖通用计算、智能计算、超级计算等多种算力类型;自研算力资源管理、算网编排、算网运营三大核心能力,实现异构算力资源的统一管理和调度,提供资源纳管算力度量、业务分发调度、资源弹性使用等快速上云、按需使用算力的一站式解决方案,满足用户的全域算力要求。

提供一站式服务平台,开启大模型普惠服务发展新篇章

中国电信打造全新“慧聚”智算服务平台,将大模型开发训练过程中的关键流程、复杂技术和宝贵实践经验进行总结和提炼,构建一站式全链路大模型生产应用“流水线”,成功突破了算子加速、模型并行、断点续训等技术难点,可灵活组装数据准备、模型开发、任务管理、模型优化等多个产品功能模块,极大降低了用户构建大模型的难度,为大模型开发者、应用厂商、科研机构、行业协会等合作伙伴提供多种生态模式支持,推动大模型普惠服务。

联合合作伙伴,共同开展技术攻关、产业创新

多元融合及开源计算加速算力跃升

未来,国内AI芯片发展的GPGPU和ASIC两条技术路线将长期并存,多种国产异构AI芯片在通过chiplet和先进封装实现算力增长的同时,也将加剧算力碎片化。因此,产业各方应积极推动算力标准制定,打造异构算力开发及适配平台,实现算力生态融通,攻关国产化算力软硬深度协同技术,加快国产芯片在大模型场景的商用进程,推动异构算力生态发展及服务化能力全面提升。未来,通过统一的算力算子标准和软硬接口融合多种异构算力,可实现动态组合无缝加速多种智算场景,缩短大模型训练时间,提升大模型推理性能,实现智能算力跃升,以满足日益增长的算力需求。

rtx 4090

利用超级互联和高性能智网实现“以网强算”

面向未来万亿级到百万亿级模型参数的训练场景,现有的互联架构和技术无法保证算力集群维持在一个可观的计算效率水平上,需要具备更高带宽、更高效率、更高扩展性的超级互联和高性能智能网络技术。中国电信联合产业合作伙伴开展超级互联技术研究,以实现端对端TB级带宽,组建超过256节点的超级节点,统一超级节点内和超级节点间的通信软件栈,降低开发难度,同时极大减少延时。中国电信将深入开展高性能网络研究,通过端网协同的拥塞控制、动态负载均衡、高性能网络协议、高性能集合通信库等关键技术,实现大规模高性能无损组网。中国电信将遵循网络运营商使命,未来在城域范围部署DCN拉远方案,跨DC建立GPU集群,攻克长距传输导致时延、丢包、抖动等网络指标下降的技术难题,整合城域内多算力资源,构建虚拟大算力节点,以高效互联助力大模型庞大算力需求的供给。

“智算大脑”作为智能中枢实现泛在调度

智算将成为算力供给的主要形态,以满足大模型训练和推理的需求。“智算大脑”是整个算力体系的智能中枢,是智算编排管理的核心,也是智算发展的关键技术。在国际智算芯片封锁加剧、国产智算芯片生态仍不完善的背景下,加强智算算力的管理和调度是短时间内提升智算算力供给的关键技术之一。中国电信将致力于提升泛在算力协同效能,开展“智算大脑”技术攻关,构建一体化智算算力编排、智算算力泛在调度、智算算力解构等端到端智算管理调度解决方案。

云智一体和开放平台赋能千行百业

为切实解决当前大模型“上手门槛高,使用成本高,应用落地难”等问题,中国电信通过云智一体的智算基础设施,以统一云形态承载AI算力,为大模型提供弹性泛在的智能算力支持;同时充分利用云的规模效应和调度能力,提升智算算力的利用率并降低使用成本。中国电信将构建开放平台,以易用的分布式计算框架高效利用底层硬件设备,采用覆盖全流程的大模型开发运营平台,降低大模型使用门槛,提升性能;协同合作伙伴丰富大模型应用生态,从而引领大模型产业链的发展,以类似水电基础设施供给的方式开放大模型能力,赋能千行百业数字化、智能化升级。


返回网站首页

本文评论
库迪咖啡发布人机协作战略,推行商用机器人规模化应用_网易科技
1月3日 ,库迪咖啡发布人机协作战略,在全球范围的门店规模化推行商业机器人应用,战略将在库迪咖啡品牌和旗下其他品牌门店同步推行,于2024年1月起陆续上线。瑞典快时尚集团据介绍...
日期:01-04
腾讯教育《学习强师》公益活动走进四川,携精准作业管理系统等开展教师信息化培训
  2021年是国家“十四五”规划的开局之年,将全面进入乡村振兴战略实施阶段。四川省教育厅在开展党史学习教育“我为群众办实事”实践活动中,聚焦民族地区教育信息化发展,着...
日期:03-11
程序员培训极客时间放心用_极客时间打造IT技术管理者的高端交流圈
  作为CTO、技术VP、技术总监等这部分IT技术管理者人群,他们往往更需要借助相关技术平台与圈层内的从业人员的力量去积极探索更多的商业可能,从而开拓管理视野,令自身领导力...
日期:07-10
华为c8500_华为c8500如何同步
华为C8500是一款推出时间较早的安卓智能手机,于2010年8月在中国大陆市场上曝光。当时,其售价为1299元,可谓是相当亲民的价格,因此,华为C8500也成为了很多人入门级智能手机的首选...
日期:05-30
Canalys:第二季度全球智能手环出货量达到4170万台 同比增长2%
10月8日消息:据Canalys的最新估计,2022年第二季度全球智能手环出货量将增长2%,达到4170万台,继第一季度下降3.7%后恢复增长。其中,基础手表和智能手表分别增长了46.6%和9.3%。印...
日期:10-16
3G补贴“名堂多” 新人笑来旧人恼
  围绕3G用户的争夺,今年来各大运营商的资费补贴一直都是市场焦点,预存话费送手机、购手机入网送话费等各种营销政策可谓层出不穷。但是面对这样“天上掉馅饼”的优惠,不少...
日期:07-24
24小时无休上岗,数字人要抢主播饭碗?「数字主播是谁」
文|Tech星球林京 杨晓鹤陈峰是一家酒旅行业服务商,负责多家大型主题乐园、文旅景区的直播业务。做直播引流获客成本并不低,一个直播团队至少需要四人:主播、 运营、助理和场控,...
日期:04-25
Apple Music迎来史诗升级!新增至1亿首歌「apple music听歌历史」
中关村在线消息:10月12日,据相关爆料,Apple Music最近上线了全新功能,歌手和乐队现在可以个性化定制AppleMusic个人主页,可以再个人简介中按照自己的喜好添加出生日期或者成立年...
日期:10-12
简单3步解决文档丢失?试试WPS高效办公小妙招《四》_wps不下心删掉文档找回
  决定职场人升职加薪的主要因素除老板外,还有你的工作文档。为什么呢?因为这些文档也是你工作成果最重要的证明之一,但大家在编辑文档时,总会遇到这 3 种情况:   1. 找文...
日期:11-05
腾讯回应出售美团股权:不实!美团市值却跌掉千亿(腾讯持有美团股份)
《科创板日报》8月16日讯(记者 张洋洋) 今日午后,美团港股直线下挫,跌幅扩大至10%。此前有市场消息称,腾讯计划出售美团的全部或大部分股权,对此,腾讯方面回应《科创板日报》记者称...
日期:08-17
智云手持云台使用教程「左手云台,右手灯光,智云始终革新影像行业」
视频时代下,影像创作市场正经历着一场全面内卷。一方面,设备制造商们在轻量化和高质量设备的研发上争先恐后,推动着整个行业的技术标准不断提升。另一方面,随着市场对作品画面质...
日期:01-02
米哈游和B站官司「米哈游诉B站UP主泄露原神角色获赔1.5万元」
凤凰网科技讯2月2日消息,米哈游起诉B站UP主上传包含未公开角色的《原神》游戏视频,法院判决被告施某某赔偿米哈游公司经济损失及合理开支共计1.5万元。网易云是品牌吗图源:天...
日期:02-02
美团市值跌_美团股价暴跌,腾讯回应清仓传闻:不予置评
(原标题:美团午后大跌超10%,腾讯回应:不评论市场传言) 8月16日午后,受“腾讯可能剥离美团”传闻影响,美团(03690.HK)大跌超10%,成交额...
日期:08-20
准入门槛被抬高 第三方支付开打并购战
  昨日,支付宝宣布收购安卡支付。随着第二批第三方支付牌照的落地,多家获牌企业已经开始布局抢占市场先机,或是收购,或是结盟。第三方支付的进入门槛也已迅速抬高。   第二...
日期:07-22
小米智能手机销量_小米第二季度智能手机出货量3910万台,同比下滑26.1%
讯 8月19日下午消息,小米集团(HK: 1810)今日发布截至2022年6月30日的第二季度财报。财报显示,小米第二季度营收701.7亿元,预估698.6亿元;净利润13.9亿元,预估15亿元;调整后净利润20....
日期:08-21
奢侈品电商寺库之殇:市值蒸发50亿元,退市破产进行时_数次调整发展方向后,中国奢侈品电商寺库或将退市
  文/邓双琳   编辑/李薇   0.239美元,这是奢侈品电商寺库8月18日盘中的股价。较13美元的发行价,寺库股价已下跌超98%,市值由巅峰时的7.7亿美元,缩水至1629万美元,蒸发掉...
日期:08-20
丰田“加价神车”半年销量暴跌30%!雷克萨斯ES又全面涨价_雷克萨斯全系涨价
作为丰田旗下的豪华汽车品牌,雷克萨斯一直的销量都很不错,特别是雷克萨斯ES,可以说是占据了雷克萨斯的半壁江山。即便是被网友疯狂吐槽“同级别动力最弱”,但也丝毫不影响该车的...
日期:08-15
蔚来换电包月「蔚来试点“跨级换电”,长续航电池包日租68元」
DoNews10月28日消息(郭睿琦)据界面新闻,蔚来宣布对“跨级换电”服务进行试点,采用该服务的蔚来车主可通过付费服务升级至更大规模的电池组,按日付费,先用后付。而对于配置更高续航...
日期:10-31
迪普科技威胁感知大数据平台安全实践——隐匿隧道攻击检测及防范技术
  什么是隐匿隧道攻击?   在实际的网络中,通常会通过各种边界设备、软/硬件防火墙甚至入侵检测系统来检查对外连接情况,如果发现异样,就会对通信进行阻断。如果发起方将...
日期:07-15
微信一个手机可以注册两个账号引热议:网友半夜不睡觉注册“挤爆”微信
快科技7月28日消息,今天凌晨,一则微信一个手机可以两个账号了”的话题突然在微博火了起来,看着话题是不是感到莫名其妙?其实这个话题说的是一个手机号可以注册两个账号,而且这也...
日期:07-28