您的位置:首页 > 互联网

ddc和idc「用DDC来构建AI网络?这可能只是一个美好的幻觉人工智能」

发布时间:2023-05-25 23:05:16  来源:互联网     背景:
2023/5/9 21:27

用DDC来构建AI网络?这可能只是一个美好的幻觉

 

ChatGPT、AIGC、大模型……一系列眼花缭乱的名词横空出世,AI商业价值引发社会的高度关注。随着训练模型规模的增长,支撑AI算力的数据中心网络也成为热点。提升算力效率,构建高性能网络……大厂们各显神通,努力在以太产业宏图上开辟AI网络的“F1新赛道”。

在这场AI的军备竞赛中,DDC高调出镜,一夜之间似乎成为了构建高性能AI网络革命性技术的代名词。但真如看上去那么美好吗?让我们详细分析,冷静判断。

始于2019年,DDC的本质是以盒盒路由器替代框式路由器

随着DCN流量的快速增长,DCI网络升级需求日益迫切。然而,DCI路由器框式设备扩容能力受机框大小限制;同时设备功耗大,扩容机框时对机柜电力、散热等要求较高,改造成本高。在此背景下,2019年AT&T向OCP提交了基于商用芯片的盒式路由器规范,提出了DDC(Disaggregated Distributed Chassis)的概念。简单来说,DDC就是使用若干个低功耗盒式设备组成的集群替换框式设备业务线卡和网板等硬件单元,盒式设备间通过线缆互联。整个集群通过集中式或者分布式的NOS(网络操作系统)管理,以期突破DCI单框设备性能和功耗瓶颈的问题。

DDC宣称的优势包括:

突破框式设备扩容限制:通过多设备集群实现扩容,不受机框尺寸限制;

降低单点功耗:多台低功耗的盒式设备分散部署,解决了功耗集中的问题,降低机柜电力和散热的要求;

提升带宽利用率:与传统的ETH网Hash交换相比,DDC采用信元(Cell)交换,基于Cell进行负载均衡,有助于提升带宽利用率;

缓解丢包:使用设备大缓存能力满足DCI场景高收敛比要求。先通过VOQ(Virtual Output Queue)技术先将网络中接收到的报文分配到不同的虚拟出队列中,再通过Credit通信机制确定接收端有足够的缓存空间后再发送这些报文,从而减少由于出口拥塞带来的丢包。

DDC方案在DCI场景仅昙花一现

想法看起来很完美,可落地却并非一帆风顺。DriveNets公司的Network Cloud产品是业界第一个、也是唯一一个商用的DDC解决方案,整套软件适配通用白盒路由器。但至今在市面上未见到明确的销售案例。AT&T作为DDC架构方案提出者,在2020年自建的IP骨干网中灰度部署了DDC方案,但后续也基本没有多少声响。为什么这朵水花并没有掀起多大的浪呢?这应该归咎于DDC存在的四大缺陷。

缺陷一:不可靠的设备管控平面

框式设备各部件通过硬件高度集成、可靠性极高的PCIe总线实现控制管理面互联,并设备都使用双主控板设计,确保设备的管控平面高可靠。DDC则使用“坏了就换”的易损模块线缆互联,构筑多设备集群并支撑集群管控平面运行。虽突破了框式设备的规模,但这种不可靠的互联方式给管控面带来了极大风险。两台设备堆叠,异常时会出现脑裂、表项不同步等问题。对于DDC这不可靠的管控平面而言,这种问题更容易发生。

缺陷二:高度复杂的设备NOS

SONiC社区已有基于VOQ架构下的分布式转发机框设计,并持续迭代补充和修改以便于满足对DDC的支持。虽然白盒确实已经有很多落地案例,但“白框”却少有人挑战。构筑一个拉远的“白框”,不仅仅需要考虑集群内多设备的状态、表项信息的同步和管理,还需要考虑到版本升级、回滚、热补丁等多个实际场景在多设备下的系统化实现。DDC对集群的NOS复杂度要求指数级提升,目前业界没有成熟商用案例,存在很大的开发风险。

缺陷三:可维护方案缺失

网络是不可靠的,因此ETH网络做了大量可维护和可定位的特性或工具,比如耳熟能详的INT、MOD。这些工具可以对具体的流进行监控,识别丢包的流特征,从而进行定位排障。但DDC使用的信元仅是报文的一个切片,没有相关IP等五元组信息,无法关联到具体的业务流。DDC一旦出现丢包问题,当前的运维手段无法定位到丢包点,维护方案严重缺失。

缺陷四:成本提升

DDC为突破机框尺寸限制,需要将集群的各设备通过高速的线缆/模块互联;互联成本是远高于框式设备线卡和网板之间通过PCB走线和高速链接器互联,且规模越大互联成本越高。

同时为降低单点功耗集中,通过线缆/模块互联的DDC集群整体功耗高于框式设备。相同一代的芯片,假设DDC集群设备之间用模块互联,集群功耗较框式设备高30%。

拒绝炒剩饭,DDC方案同样不适用于AI网络

DDC方案的不成熟和不完善,在DCI场景上已黯然退场。但当前在AI风口下竟然死灰复燃。笔者认为,DDC同样不适用于AI网络,接下来我们详细分析。

AI网络的两大核心诉求:高吞吐、低时延

AI网络支撑的业务其特征是流数量少,单条流的带宽大;同时流量不均匀,经常出现多打一或者多打多的情况(All-to-All和All-Reduce)。所以极易出现流量负载不均、链路利用率低、频繁的流量拥塞导致的丢包等问题,无法充分释放算力。

DDC仅解决了Hash问题,同样带来众多缺陷

DDC使用信元交换将报文切片成Cells,并根据可达信息采用轮询机制发送。流量负载会较为均衡的分配到每一条链路,实现带宽的充分利用,并较好解决了Hash问题。但在这个之外,DDC在AI场景依然存在四大缺陷。

缺陷一:硬件要求特定设备,封闭专网不通用

DDC架构中的信元交换和VOQ技术,均依赖特定硬件芯片实现。当前DCN网络设备均无法利旧使用。ETH网的飞速发展,得益于其即插即用的便利和通用化、标准化。DCC依赖硬件并通过私有的交换协议构建了一张封闭的专网,并不通用。

缺陷二:大缓存设计增加网络成本,不适合大规格DCN组网

DDC方案若进入DCN,除去高昂的互联成本外,还背负着芯片大缓存的成本负担。DCN网络当前均使用小缓存设备,最大仅64M;而源于DCI场景的DDC方案通常芯片的HBM达到上GB。大规模的DCN网络相较DCI而言,更在意网络成本。

缺陷三:网络静态时延增加,不匹配AI场景

作为释放算力的高性能AI网络,目标时缩短业务的完成时间。DDC的大缓存能力将报文缓存,势必增加硬件转发静态时延。同时信元交换,对报文的切片、封装和重组,同样增加网络转发时延。通过测试数据比较,DDC较传统ETH网转发时延增大1.4倍。

缺陷四:随着DC规模增大,DDC不可靠的问题会更加劣化

相对DDC在DCI场景替代框式设备的场景而言,DDC进入DCN需要满足更大的一个集群,至少要满足一个网络POD。这意味着这个拉远的“框“,各个部件距离更远。那么对于这个集群的管控平面的可靠性、设备网络NOS的同步管理、网络POD级的运维管理要求更高。DDC的各种缺陷将会裂化。

DDC最多是个过渡方案

当然,任何问题都不是不能解决的。接受部分约束,对于这种特定场景,很容易成为各个大厂“炫技”的舞台。网络追求可靠、极简、高效,厌弃复杂度。特别是当前“减员增效”的大背景下,确实要考虑下DDC落地的代价。

在AI场景下面对网络负载分担问题,当前已经有很多案例通过转发路径的全局静态或动态编排解决,未来也可以通过端侧的网卡基于Packet Spray和乱序重排解决。所以DDC最多是个短期过渡方案。

深度扒一扒,DDC背后的推手或许是DNX

最后说下主流网络芯片公司博通(Broadcom),我们较为熟悉的有StrataXGS和StrataDNX两个产品系列。XGS延续高带宽、低成本的路线,快速推出小缓存、大带宽的芯片产品,在DCN网络占用率持续独占鳌头。StrataDNX却背着大缓存的成本,延续着VOQ+信元交换的神话,期望DDC进入DC续命。北美似乎并无案例,国内DDC或许是DNX最后的救命稻草吧。

当今GPU等大量硬件设施在我国已经受到一定程度的限制,我们真的需要DDC么?还是多给国产化器件留些机会吧!

自动驾驶汽车侵权

俄军核心能力


ddc和idc

三星galaxy s23ultra价格

四大光模块厂商2022年业绩解析:“CPO概念”热炒下的高端进击
杭州移动携手华为合力保障张信哲4.5万人演唱会通讯,交出护航亚运会开幕式的满分答卷

返回网站首页

本文评论
淘宝商城张勇:对假货零容忍 明年费率不变
  淘宝商城总裁张勇在今日给商家的信中写道,淘宝商城已调整新规,对假货水货“零容忍”,淘宝商城2012年的费率政策基本不会变化。张勇在信中所讲内容包括,1、淘宝商城将坚持对...
日期:07-23
男子花4000元网购手机却只收到了手机壳和零食_在网上买手机壳
近日,一位网友分享了他在网上购买手机被骗的经历。重庆的张先生网上看到一款手机,市场价格近万元对方只卖4000多。交首付款后,张先生收到一袋零食。对方连连道歉,承诺马上补发,希...
日期:10-25
苹果什么时候换的oled「曝苹果将在2027年全面改用OLED显示屏」
近日,据技术公司Omdia透露,苹果公司计划逐步将旗下所有设备转换为OLED显示屏,并推出32英寸和42英寸的外接显示器。目前,苹果已经在iPhone、Mac等常用设备中广泛采用OLED显示屏,明...
日期:04-23
iphone6s没有touch id「彻底没了!消息称苹果iPhone将抛弃Touch ID功能」
苹果在2017年的iPhone X上使用了Face ID,从而取代了Touch ID功能,但是外界一直有Touch ID回归的传言,但是知道今年的iPhone 14系列,仍然没有见到Touch ID的身影。据知名苹果爆料...
日期:10-06
年轻人追求精致生活「年轻人的精致“穷生活”:攻略、商机与生意经」
声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:陈桥辉,授权转载发布。说到“穷游”,大家第一反应都能想到年轻人。“穷游”作为一种新的旅行方式,力求用最经济的方式、花...
日期:11-20
2021国庆档电影票房排行榜「2022国庆档电影看哪部?票房预售榜出炉」
10月1日消息,猫眼专业版数据见证,9月30日20时56分,2022年国庆档(10月1日-10月7日)预售票房破5000万。电影《万里归途》票房占比最高。夜拍效果最好的手机另外,据灯塔专业版数据,截...
日期:10-02
吴敏芝出任蚂蚁集团 CPO 首席人才官 曾松柏离任
1月4日消息:原蚂蚁集团首席人才官(CPO)曾松柏离职,由副CPO吴敏芝接任。吴敏芝原为阿里合伙人,于2021年8月退出合伙人位置,加入蚂蚁集团,担任资深副总裁、副首席人才官。联发科 天...
日期:01-04
华为智慧屏V75 Super发布,这配置和功能当贝Z1 Pro+老电视同样能实现_华为v75super智慧屏对比评测
  华为发布会诞生了两款智慧屏,今天来聊聊华为智慧屏V75 Super,此款产品是华为首款MiniLED智慧屏,实现了华为鸿鹄SuperMiniLED 2880分区精密控光,46080颗灯珠,3000nits HDR峰...
日期:09-16
中国证券市场研究学者布娜新:预见大时代的领航者
  在风起云涌的资本市场中,能够紧跟趋势冷静决策的人当属凤毛麟角。类似新三板这样的新生事物,大部分人是在近一两年才知道它的名字,更遑论了解或正确运用这项资本市场的工...
日期:06-15
【贺新春 送温暖 话祝福】厦门市政协魏克良主席一行莅临白鸽在线参观指导
  2021年2月19日下午,厦门市政协魏克良主席、张仁苇秘书长、杜亮主任、范世高处长及秘书叶伟民一同莅临白鸽在线(厦门)网络科技有限公司(以下简称“白鸽在线”)参观指导,并...
日期:07-16
从信息到服务:重新认识百度搜索_信息的认识
  进入移动时代,互联网似乎朝着与原来相反的方向驶去:信息和服务分散在各个相互封闭的APP中。   网易云音乐和腾讯音乐集成了大量的音乐资源,足以满足消费者听音乐的需求...
日期:07-16
戴尔第四季度 净利润9.27亿美元增长178%(戴尔公司营收)
  戴尔当地时间周二发布了2011财年第四季度财报。财报显示,戴尔净利润增长约2倍至9.27亿美元。   戴尔第四财季净利润由去年同期的3.34亿美元增长至9.27亿美元,每股收益...
日期:07-26
暴雪关停国服后 CEO发声:游戏行业被亚洲主宰 东西方竞争不平衡「暴雪游戏凉了」
1月24日,暴雪与网易的合作协议正式到期,目前《魔兽世界》《炉石传说》《暗黑破坏神III》《星际争霸II》《魔兽争霸III:重制版》《风暴英雄》等游戏都已经停服。不过,动视暴雪的C...
日期:02-11
抖音电商“富域计划”走进甘肃,助民勤蜜瓜获得市场新增量
  “夏天是吃瓜的季节,买它不会让你失望的。”打开抖音,搜索“民勤蜜瓜”,黄灿灿的蜜瓜画面呈现在面前。一个个抖音电商带货达人,或是正在直播卖瓜,或是通过短视频介绍民勤蜜...
日期:03-03
怎么忽然都在说钉钉变好用了?_为什么使用钉钉这个软件
  上周,钉钉总裁叶军在钉峰会上公开向自家产品“开炮”:苹果ceo库克 与乔布斯  “钉钉消息太多,很烦。”  他说周围很多人讨厌DING消息。“我从来不DING人,只打电话。” ...
日期:09-27
阿里巴巴国际站内容化运营负责人赵倩芸:内容化真人接待类型直播让中小外贸企业距离更小、生意更大
更多精彩内容,请关注 《2022网易未来大会》专题报道记者:普子胥 赵倩芸:直播真人接待新形态帮助 B2B 贸易增长 (来源:网易科技) 12月19日-23...
日期:12-23
五一放一天不调休 能接受吗? 网友:失去周末更痛苦
随着五一假期的临近,调休和加班的话题再次引起关注。由于4月23日和5月6日需要继续上班,有网友表示,虽然表面上放5天假,但实际只有1天假。网友们对于五一只放一天假或者调休凑成...
日期:04-18
国美收购库巴网是哪一年_国美嫡系电子商务上线 库巴网称不受影响
  北京时间4月20日消息,国美集团旗下电子商务网站gome.com.cn今天公布正式上线,国美电子商务总经理韩德鹏表示,国美电子商务目前已在全国建立31个自由仓库,支持全国配送。国...
日期:07-27
天猫养车推出“天猫养车精英俱乐部”「天猫养车官方网站」
10月8日消息,由天猫养车联合运营中心举办的首届“天猫养车精英俱乐部——916沙漠心灵之旅”近日顺利闭营,旅程中举行了一场以“享”为主题闭门座谈会,邀请天猫养车精英俱乐部成...
日期:10-15
封号、破产、裁员,亚马逊中国卖家的艰难60天「科技史上裁员人数之最:亚马逊将裁员超17000人」
  讯 北京时间1月5日早间消息,据报道,亚马逊将裁员超17000人,高于此前披露的约1万人,也是迄今为止科技巨头史上裁员人数最多的一次。  去年11月,亚马逊称将裁员,主要集中在设...
日期:01-05