您的位置:首页 > 互联网

中国移动IT云资源池网络故障诊断的探索和实践_中国移动云资源池运营

发布时间:2023-11-07 16:03:13  来源:互联网     背景:

通信世界网消息(CWW)网络数智化是指人工智能、大数据技术与通信网络的硬件、软件、系统、流程等深度融合,而利用AI、大数据技术助力通信网络运维数智化,是实现自动驾驶网络高阶能力的基石。国务院国资委《关于加快推进国有企业数字化转型工作的通知》系统阐明了国有企业数字化转型的基础、方向、重点和举措,“上云用数赋智”贯穿始终。

中国移动数字化战略进程逐步推进,对网络的访问质量、灵活调度、可靠性等特性提出更高的要求,以算力网络为代表的基础设施更是以“数字时代新能源”为目标,要求具备相应的数字化网络支撑能力。

运维领域网络故障诊断技术分析

通过对行业内头部企业和专业公司的走访、调研、交流,笔者发现行业内网络故障诊断技术主要分为两类:一类是主动探测技术,例如端到端探针埋点;另一类是被动探测技术,包括旁路分析、带内报文染色。

端到端探针埋点

端到端探针埋点是通过部署在不同网络区域、设备下的探针,进行双向业务及网络测试,生成端到端的SLA报告,根据异常探针位置定位某一段网络故障。该模式存在以下不足:一是复杂数据中心网络部署难度大,通用性低;二是缺少与网络设备的数据交互。

中国移动集中网络云资源池三期工程

带内报文染色

网络故障发现、定界、定位主要依赖带内报文染色、拨测流多因子关联分析,带内报文染色利用诊断模型对数据进行挖掘、交叉分析,选出故障概率最高的网元及根因。但报文染色特性对设备兼容性要求高,在电信运营、政务、交通、金融等领域难落地,可推广性不强。

买家差评勒索犯罪吗

中国移动云资源池运营

本文提出基于知识图谱AI算法,以真实业务流、拨测流中国移动IT云资源池网络故障诊断的探索和实践异常检测为故障触点,结合异常流的访问路径、资产、组网特征等关联属性,进行交叉共性分析、故障场景模型匹配,从而实现故障网元自动定界定位。

网络故障智能诊断体系

中国移动IT云数据中心的网络数智化运维依托云网络基础设施,结合运维大数据,构建数字化网络平面,打造了一个以感知、定位、决策为核心路径的网络自动驾驶平台。以真实业务流、拨测流异常检测为故障触点,结合异常流的访问路径、资产、组网特征等关联属性,进行交叉共性分析,自动感知资源池全局到局部的异常状态,自动定位故障发生的网络节点,匹配故障决策场景,实现网络自动驾驶。网络故障诊断流程如图1所示。

网络流采集

小米第一款陶瓷后盖手机是

网络流采集运用报文分析技术,实现原理为:数据中心中的每个网络节点包含n个应用服务,应用间调用依赖网络节点的数据包转发。通过在网络中的关键节点配置端口镜像,如防火墙、负载均衡器、汇聚节点等,将业务流量切片,接入到镜像交换机,分析服务器采集镜像交换机中的镜像报文,分析应用在每个关键节点上TCP/UDP层的行为,生成时延、成功率、数量等显性指标。

网络流分类

网络流的统计分类可以基于生产环境运维过程中的故障辐射范围,从云资源池、POD内、POD外,到网络平面、VPC,也可以灵活自定义分类。

报文在网络中的流转分为业务路径及网络路径。

业务路径:每个业务系统由若干功能模块组成,每个功能模块由若干应用服务组成,而系统内所有应用服务间的调用逻辑组成了系统业务路径。

移动云 网络云 it云

网络路径:每个应用服务的一次调用,在网络中形成一对五元组的流,将流从源地址到目标地址访问过程中的每一次转发汇总,形成一条网络路径。

异常流检测

在分析研究网络流实测数据特征后,本文采用ARIMA模型算法来做异常检测。该模型相较于一元线性回归模型,对多因素、复杂的问题解释性高;相较于ARMA模型,可以将非平稳时间序列转换为平稳的时间序列;相较于SARIMA模型,网络流的数据不具有季节性变化。

构建模型需要提取每个指标的历史数据,剔除负面历史数据,根据每周期移动平均值、每周期差分系数、每波动周期趋势系数,生成各类指标的预测值、上波动值、下波动值。

同时在实际生产过程中,指标预测容易因瞬时值、故障值变化导致数据失真,因此应采用“削峰去谷”、异常标注等方法,提高样本精准度。

“削峰去谷”:将样本自定义n个周期,每周期内剔除m%的峰、谷指标,剔除的指标根据样本补齐算法自动替换。

异常标注:根据指标的告警、恢复周期,自动标识并剔除异常指标,根据样本补齐算法自动替换。

故障定位

常用的网络故障管理方法有模糊逻辑检测、专家诊断、神经网络系统检测诊断和各种智能化诊断等。由于这些方法各有优劣,所以在应用中大多结合使用。

本文提出的方案以异常拨测流数据为触点,通过网络路径的共性分析,得到拨测流路径中交叉网元信息,计算网元中异常流与正常流的占比,得到故障网元的概率分布。

基于路由表项、策略引流配置,自动生成每条探测流之间经过的网元,当异常流产生时,根据交叉网元经过的异常流与正常流占比,推算共性网元的故障概率。

假设某个POD1内有4个异常流,分别命名为POD1-1、POD1-2、POD1-3、POD1-4,展开每个异常拨测流访问路径,包括二层路径、三层路径以及路径中经过的每个网元节点,根据路径中的交叉性、入网属性、归一性,以及异常占比,计算共性网元的故障概率,取故障概率最高值定义为故障共性网元。

故障场景匹配

故障网元定位出来后,需要帮助运维人员缩短故障处理时间,本文引入知识图谱模型。基于知识图谱模型、历史故障的数据特征(如指标趋势、表项变动频率、关联网元状态等),构建仿真验证的故障场景模型。

本文以网元指标类型、采集方式为维度,构建了一个与网元设备进行数据交互的原子用例。运维人员结合专家知识图谱,自定义编排、组合原子交互用例,形成各类故障场景特征库。

在网元与故障场景特征匹配时,通过原子交互用例与网元进行数据交互,判断获取的指标数据是否在故障特征用例取值区间内,满足匹配条件后输出故障根因与自愈决策建议。

以VRRP双主场景为例,分析异常网元指标(高丢包率),结合网元归属特征、节点映射关系和VRRP双主场景用例,得出丢包根因“Vlan xx VRRP双主”。从场景用例可以发现,两个VRRP主路由器竞争相同的虚拟IP地址,导致地址冲突。同时,VRRP组在主备之间频繁切换,增加了网络时延和丢包率。日志显示VRRP状态的信息,如主备状态、切换信息、虚地址列表、版本等。

决策建议

完成故障诊断后,推送决策建议到相关方。决策内容主要分为两类:匹配知识图谱的故障处理建议和未匹配知识图谱的故障定位信息,包括网元路径、故障网元、源目地址、网元指标等。

本文围绕网络运行质量构建网络故障智能诊断体系,将网络运行中依赖的数据要素解耦为可观测指标,结合机器学习、异常检测、高性能探针、流处理引擎等技术,自动评估网元、网络、链路、路径、区域、租户、子网健康状态,结合知识图谱场景化构建,实现故障快速根因定位。

中国移动通过在IT云试点并积累经验,不断完善异常检测模式和故障场景种类,平台能力已覆盖IT云区域中心的所有片区中心,并逐步推广至银行、金融、交通、能源等行业。


返回网站首页

本文评论
支付宝小程序未授权怎么处理「继微信之后,支付宝将推出小程序代备案服务」
通信世界网消息(CWW)8月10日,支付宝官方宣布,为贯彻落实《中华人民共和国反电信网络诈骗法》、《互联网信息服务管理办法》及《非经营性互联网信息服务备案管理办法》等法律法规...
日期:08-10
对话杨植麟:Moonshot AI即将超10亿融资,最终目标并非超越OpenAI_杨植麟清华
机器之心原创作者:姜菁玲今年年初,杨植麟手机里来自投资人的微信好友验证请求开始爆发。急迫寻找人工智能标的的众多投资人听闻了一个消息——杨植麟,开始大模型创业了。在GPT...
日期:08-14
估值500亿,一只独角兽倒下_2000亿独角兽
声明:本文来自于微信公众号投资界PEdaily(ID:xxxxx),作者:戴昌洲 刘福娟,授权转载发布。一切来得猝不及防。本周,福特官方一纸声明震撼创投圈:由福特、大众联手投资的自动驾驶公司Ar...
日期:11-11
工信部推进IPv6普及:今年实现骨干网改造、LTE活跃数要达8亿(中国电信ipv6过渡技术)
  工信部日前发布关于开展2019年IPv6网络就绪专项行动的通知,其中明确提出2019年末要实现三大目标:获得IPv6地址的LTE终端比例达到90%,获得IPv6地址的固定宽带终端比例达到4...
日期:04-14
小米流量控制怎么关「小米流量控制」
是指在小米手机中设置限制应用程序使用数据流量的功能。该功能可帮助用户避免超出数据流量套餐的限制,避免产生高额的费用。的设置方法非常简单。用户只需按照以下步骤操作:1....
日期:05-29
飞猪旗舰店双11期间上线多款酒店新品「飞猪酒店官方旗舰店」
10 月 28 日消息,双 11 期间,万豪、雅高、万达、洲际、凯悦等酒店集团相继在其飞猪官方旗舰店首发新品。同时,今年万达酒店及度假村有超过 20 款商品在飞猪双 11 售卖,其中北京...
日期:11-02
暗中却购买上万个GPU推进AIGC项目 马斯克被曝明面上呼吁暂停AI研究
4月12日消息,据两位知情人士透露,尽管特斯拉首席执行官埃隆·马斯克(Elon Musk)签署了公开信,明面上呼吁暂停先进人工智能研究六个月,但其却暗中在推特推进新的生成式人工智能(AIGC...
日期:10-03
iPhone 15 Pro Max涨价 起售价或达11000「苹果15 pro」
7月12日 消息:尽管苹果计划在今年秋季推出iPhone15系列,但目前关于新机的规格和价格尚未有官方消息。据报道,iPhone15Pro Max可能会比之前的Pro Max型号更昂贵,但也将配备一些...
日期:07-12
乐视工资发了吗「乐视回应四天半工作制:薪资福利和奖金都不变」
1月9日 消息:据中国企业家消息,针对“实行每周四天半工作制”的情况,乐视市场部负责人表示,关于此次工作制的调整,很久以前就在考虑了,包括考虑更灵活的打卡制度。同时,员工正常的...
日期:01-09
iOS17将添加新功能 详细功能会在WWDC2023公布_苹果新增功能
据彭博社的Mark Gurman报道,苹果在iOS17的开发过程中改变了策略,增加了几个新功能,这表明这个更新可能比之前预想的更重要。最初的计划是将其称为调整版本,更侧重于修复错误和提...
日期:03-27
印度生产苹果吗「苹果iPhone 14或将在印度生产 和中国零件差距在缩小」
8月23日消息,据业内人士爆料称,苹果打算在iPhone 14开售两个月之后就开始在印度生产。可以看到,苹果在布局中国以外的iPhone零件生产厂。对此苹果此前曾表示,印度市场很大,也需要...
日期:09-23
魔改Type-C接口 中国动手大神自行改装iPhone 13充电口_苹果耳机改装type-c插头教程
近日,一位自称是iPhone硬件技术人员的中国网友自行动手将手里的一台iPhone 13充电接口从Lightning魔改成Type-C接口,并将改装过程分享至网络,虽然只有三张视频截图,但整体思路清...
日期:11-03
昆仑万维三季报_昆仑万维Q3营收5.47亿元 同比减少41.5%
11月2日消息,昆仑万维发布了2020年第三季度财报,数据显示,第三季度,公司营收5.47亿元,同比减少41.5%;归属母公司所有者的净利润5.01亿元,同比增长40.11%。前三季度,昆仑万维营收22....
日期:08-02
目前公司IGBT产品已进入比亚迪、长城、吉利等车企- 华润微
【】6月5日消息,日前,华润微在投资者活动中表示,IGBT 产品目前主要应用在汽车 OBC、汽车空调等,预计今年模块产品能够进入汽车主驱应用。目前公司 IGBT 产品已进入比亚迪、长城...
日期:09-25
比亚迪宋2022「比亚迪宋L在成都车展首发亮相:搭载“云辇C”」
凤凰网科技讯 8月25日,比亚迪B级先锋猎装SUV宋L在成都国际车展首发亮相。据介绍,宋L还将搭载“云辇C”,拥有毫秒级的阻尼调节速度,细腻的滤震能力。加速急刹,无明显俯仰;高速过弯,...
日期:08-25
郭明錤:苹果 iPhone 14 的发布/发货日期可能早于 iPhone 13/12(苹果14上市时间已定)
IT之家 8 月 18 日消息,彭博社 Mark Gurman 此前爆料,苹果公司计划在 9 月 7 日星期三(预计北京时间 9 月 8 日凌晨)举行首次秋季发布会活动,推出 iPhone 14 / Pro 系列和 Apple...
日期:08-21
男子开法拉利高速狂飙至257km/h:只为拍视频显摆一下「法拉利开车视频」
高速上超速行驶,是一件非常危险的事情,但总有人会破坏规则,挑战法律。宏光mini ev车联网苹果12pro max购买据看度新闻报道,近日在四川成都,天府机场高速交警查获一起超速100%的交...
日期:10-06
陆奇 微软_微软在线总裁陆奇:世界正进入云计算时代
  “我们正在进入云计算时代,这种技术革新将为信息社会带来更大价值。”微软在线服务集团总裁陆奇16日如是表示。   在当天于浙江宁波举行的2010年上海世博会首场主题论...
日期:07-29
节能版酷睿i9-13900T现身:35W战平12900K_i9 10900k睿频
Intel 13代酷睿已经在桌面、移动端等全面铺开,包括TDP 35W的T系列节能版。经查,Geekbench 5上出现了酷睿i9-13900T的跑分。让人意外的是,热设计功耗35W的它,单核性能居然反超了...
日期:01-15
解密文件近1354万次 360安全大脑发布《2020年勒索病毒疫情分析报告》
  B站知名UP主被攻击、德国医院遭勒索导致病患死亡、富士康1200台服务器沦陷……纵观已经过去的2020年,除了“新冠”疫情给全行业带来的冲击外,勒索病毒威胁再次领跑了2020...
日期:03-09