您的位置:首页 > 互联网

星脉贴吧「腾讯发布星脉网络2.0,让AI大模型训练效率提升20%」

发布时间:2024-07-03 16:37:09  来源:互联网     背景:

(腾讯云副总裁王亚晨)

随着大模型的火热持续迭代,AI基础设施愈发成为云厂商的核心竞争力之一。

7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。这意味着,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来需要花50天训练的模型,只需要花40天。

台积电芯片产量2020

AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最 大的算力性能,助力客户在AI大模型的竞争中领先。

AIGC的火热推动着AI大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。

为支撑AIGC中海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,互联互通,共同完成训练任务。

然而,集群规模越大,所产生的通信损耗会越高;同时,AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最 大可达50%。同时,分布式计算模式也意味着,单点的故障将导致整个集群不可用,因此在故障的时候需要快速定位与恢复训练,把损失降到最 低。

如何在大规模组网前提下,提升通信效率、降低通信占比,让训练稳定高可用,进而提升GPU的利用率和模型训练效率,是AI网络要解决的核心问题。

数据显示,星脉网络2.0可实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。整体能力处于业界顶 尖水平。

四大组件全面升级,助力AI训练提速

腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯核心技术。

日系车混动技术

(腾讯云副总裁王亚晨)

深圳星脉网络技术有限公司

硬件方面,腾讯星脉网络是业界首 个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。

值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内首 款为AI训练设计的网卡,网卡采用最 新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最 高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa,并搭载了腾讯独有的主动拥塞控制算法。

相比起上一代,TiTa协议2.0从部署在交换机转移到了端侧的网卡上,从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法,可主动调整数据包发送速率,从而避免网络拥堵;并通过拥堵智能调度,实现网络拥塞快速自愈。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。

专为星脉网络设计的高性能集合通信库TCCL,也进行了升级。通过创新的NVLINK+NET异构并行通信、Auto-TuneNetworkExpert自适应算法等通信库的升级,在MoE模型训练下,给星脉网络带来了30%的通信效率提升,让模型训练效率提升10%。

TCCL 对外的接口跟原生通信库接口完全一致的,主流AI大模型客户不需要额外适配,只需要替换通信库就可以发挥星脉的能力。

通信协议TiTa与通信库TCCL的升级带来的效果叠加,让星脉网络的通信效率提升60%,MoE大模型训练效率提升20%。

网络的故障或任何单点的故障,将导致整个集群不可用,让模型训练暂停。因此,网络的高可用、稳定性也极为重要。为确保星脉网络的高可用,腾讯云自研了端到端的全栈网络运营系统,这也是星脉网络第四大关键组件。

运营系统2.0新增腾讯独 家技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。

iqoo neo5s 8加256开箱全过程

星脉贴吧

打造最适合大模型的云

目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

大模型训练集群在HCC将高性能云服务器作为节点,满配最 新代次的GPU,节点之间通过自研星脉网络互联,提供高性能、高带宽和低延迟的一体化高性能计算产品。

腾讯云AIGC云存储解决方案是国内首 个实现存储引擎全面自研的云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求,可支持千亿级向量规模存储,百万级 QPS 及毫秒级查询延迟,适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务,实现企业数据接入AI的效率比传统方案提升10倍。

腾讯云打造了天御AIGC全链路的内容安全解决方案,提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系,护航企业从模型训练到事后运营全过程的内容安全建设。

星脉跳动网络科技

同时,在自身AI基础设施支撑下,腾讯自研的通用大模型腾讯混元大模型也在持续迭代。

借助基于星脉网络的大模型训练集群HCC、Angel机器学习平台等自研底层技术,腾讯搭建起万卡AI训练集群,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;推理成本相比业界主流框架下降70%,并且支持国产主流硬件的适配。

腾讯混元已扩展至万亿级参数规模,采用混合专家模型(MoE)结构,在通用基础能力和专业应用能力方面处于国内主流大模型领先地位。无论是企业客户还是个人开发者,都可以通过腾讯云上API直接调用腾讯混元,实现更便捷的智能化升级。腾讯还联合生态伙伴,将大模型技术与20多个行业结合,提供超50个行业大模型解决方案。

apple watch series 7买什么颜色

大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底层AI基础设施,助力企业把握AI时代。


返回网站首页

本文评论
数据中心项目是什么「秦淮数据张炳华:拥抱AIGC时代,数据中心需具备5大能力」
9 月 13 日- 14 日,由开放数据中心委员会(ODCC)主办的“ 2023 开放数据中心大会”在北京举行。ODCC 技术专家组主任专家、秦淮数据集团CTO张炳华出席大会主论坛,发表题为《拥抱A...
日期:09-15
amd锐龙93900x比i99900k性能「英特尔酷睿 i9-13900K(350W)跑分强于 AMD R9 5950X 约 67%」
IT之家 8 月 8 日消息,随着英特尔 13 代 Raptor Lake 系列 CPU 发布日期的临近,酷睿 i9-13900K 也频频出现在各大基准测试平台上,不过大都表现平平。现在,@OneRaichu 放出了一份...
日期:09-25
和解后 微念退出李子柒公司股东_李子柒和微念怎么了
凤凰网科技讯 2月1日消息,据天眼查App显示,近日,四川子柒文化传播有限公司发生工商变更,杭州微念品牌管理有限公司退出股东行列,新增股东蒲倩云,持股比例1%。目前,该公司由李佳佳(李...
日期:02-01
ChatGPT 在美国工作场所走红,隐患引发警觉「charging」
本文概要:华为mate20x 7.2寸1. 虽然存在泄露机密的担忧,但许多美国员工仍在工作中使用 ChatGPT。老相机收藏视频2. 谷歌、微软等公司已限制使用 ChatGPT,引发对安全性的担忧。...
日期:08-12
戴尔外星人笔记本_戴尔外星人笔记本怎么样质量
戴尔外星人(Alienware)是一款高端的游戏PC品牌,以其不同寻常的外观、产生强烈的视觉冲击力的不温不火的灯光、高性能硬件和强大的游戏性能而闻名。Alienware于1996年成立于美国...
日期:05-30
取代现有“Plus”系列 曝iPhone17将推Slim机型_iphone2017出什么手机
知名分析师Jeff Pu透露,iPhone17系列将展现“焕然一新的设计”,并带来前置摄像头的改进以及更为紧凑的灵动岛设计。其中,Jeff Pu预测苹果将推出一款全新的“iPhone17Slim”机型...
日期:05-06
老匡:月活6亿的流量洼地「QQ小世界」,仅剩的流量金矿,6种玩法详解!
声明:本文来自于微信公众号 匡方(ID:kuangfang2012),作者:匡方,授权转载发布。不用调研,绝大部分人头回听说「QQ小世界」,绝对一脸懵逼:QQ小世界?什么鬼东西?忽悠人的吧?老匡也不...
日期:01-17
盒马将同步开售iPhone 15系列,最快18分钟送达消费者手中「盒马iive」
9月13日消息,苹果新品发布会结束后,盒马宣布将于9月22日同步开售iPhone 15系列,消费者可直接在盒马App下单,盒区房用户最快18分钟即可拿到现货。盒马方面表示,包括北京、上海、杭...
日期:09-13
ChatGPT 的创造性思维可以与排名前 1% 的人类相媲美_pisa创造性思维
7月18日消息:蒙大拿大学的一项新研究表明,人工智能聊天机器人 ChatGPT 可以与人类中排名前 1% 的最顶尖的思考者相媲美。apple macbook 12寸研究人员将经常使用的创造性思维...
日期:07-18
Sam Altman、Hinton中国首秀!国内最硬核AI内行盛会圆满闭幕,国产大模型「悟道3.0」全面开源
iphone12今年618降价多少新智元报道编辑:编辑部【新智元导读】这一届的智源大会,依然是星光熠熠,学术感爆棚。众大咖激辩超级AI,思想碰撞火花四射,依然是绝不能错过的一届AI春晚!...
日期:06-11
谷歌 Google I/O 2023 开发者大会或发布以 AI 为基础的新产品
4月23日消息:Google 将于北京时间 5 月 11 日召开 I/O 开发者大会,届时预计会发布多款新硬件产品,其中包括中端手机 Pixel 7a、折叠屏手机 Pixel Fold 及平板电脑 Pixel Table...
日期:04-23
曹国伟:重视互联网建设,引领信息交互模式创新_曹国伟简介
早在2019年1月18日,在新浪财经、人民日报、吴晓波频道联合出品的“2018十大经济年度人物”颁奖盛典上,新浪董事长兼CEO、微博董事长曹国伟作为开奖嘉宾,在开奖致辞中,不仅向莅临...
日期:03-06
苹果se4.7英寸多少钱「换上全面屏!iPhone SE4售价曝光:苹果要大涨价」
快科技5月21日消息,据外媒最新报道称,苹果将要提高iPhone SE4的售价。华强北airpods pro降噪测试记录纪录的拼音按照爆料者的说法,iPhone SE4在美国的售价相比上代要高出10%,也...
日期:05-21
李佳琦,身处暴风眼
图片来源@李佳琦Austin文 | 电才3年前的李佳琦,正是最风光的时候,口红一哥的名头,各路晚会纷纷抛出橄榄枝,各路明星前赴后继登上他的直播间。就是各路投资人、商业大佬也是座上...
日期:11-13
半路冲出苹果Vision Pro:三星无奈重新设计Galaxy XR头显
快科技6月13日消息,近日,苹果推出了首款MR头显Vision Pro,在不少关注苹果新产品的用户惊叹未来已来”的同时,其他计划推出同领域产品的厂商,却难免开始犯愁。目前,据爆料人OreXda...
日期:06-13
正面对标opporeno10 荣耀90影像报告「oppo a95 荣耀x10」
继 2499 元的荣耀 90 发布后,很多人拿它与定位相近的opporeno10 进行对比,想知道哪款手机的体验更加出色。今天,我们就全面解读荣耀新机的影像配置,同时与reno10 进行体验对比。...
日期:06-05
机械盘真的没人买了 HDD出货量再次暴跌:价格神奇上涨「机械硬盘hd0固态hd1」
快科技5月9日消息,WDC西数发布了2023财年Q3财报,营收28亿美元,位于指引区间上端,高于27亿美元的市场预期,同比下降36%,净亏损5.7亿美元,上年同期净利润为2500万美元。按业务划分,云...
日期:05-10
质感好人像 vivo,S19系列一图看懂 轻薄长续航_vivo s1 2019
来源:中关村在线中关村在线消息:就在刚刚,vivo S19系列正式发布,其不仅在设计上融入了东方美学元素,还在影像技术和续航能力上进行了显著升级,目前官方已经放出了新机的内存、售价...
日期:05-30
都是苹果的套路!iPhone14 Plus遇冷iPhone14 Pro卖爆_假的iphone12pro max
中关村在线消息:iPhone 14 Plus首销,却迅速破发,第三方报价已经比苹果官网便宜了400元左右。上个月黄牛抢购的现象并未在iPhone 14 Plus上重现。iPhone 14 Pro系列依旧很火爆,第...
日期:10-24
小米的智能设备「你有几件?超千万人拥有5件以上小米智能设备」
今天下午,小米集团正式发布了2022年第三季度业绩报告,其中显示总收入约人民币704.74亿元,环比增长0.4%。净利润约21.17亿元,环比增长1.7%。财报显示,小米AIoT平台已连接设备数达5...
日期:11-25