01 项目概述
随着网络规模逐年增加,产业结构化矛盾日益突出,数以万计甚至千万计的运维指标远远超出了运维人员可以有效利用的范围。河南移动全省共有SPN设备1.5万台,每日告警量高达上百万条,随着传输网络规模和复杂性的还在逐年增长,如何实现故障的提前预防,而不是事后补救,通过加强网络的风险管理,确保网络、资源风险等得到充分识别、推动和及时闭环,提升网络健壮性。为此,华为公司联合河南移动,探索网元AI+网络AI的双层智能架构,创新孵化SPN网络风险隐患预警方案,从“以故障为中心”的被动运维转换为“以隐患为中心”的预防性运维,打造可视、可预防、自诊断的全流程网络健康保障方案,极大提升了网络的安全性及先进性。
华为率先创新性定义“一致性、可靠性、性能负载、容量”四大类网络隐患监测体系,给网络全面“体检”。
Ø 一致性风险指标:基于配置大数据分析构建语义链接知识图谱,自动提取全网网元配置特征进行在线训练,精准识别不同网元角色的配置风险。
Ø 可靠性风险指标:通过对1000+网元KPI边缘推理,对4大类链路风险因子计算,结合图神经网络的自监督评估识别网络风险链路,并支持智能排序自动推荐高风险隐患;
Ø 性能负载风险指标:6大类关联指标在线自动学习,基于异常模型实现对光功率有效评估光功率异常风险,快速闭环网络弱光隐患;
Ø 容量风险指标:通过预置AI算法,对4大类30+关键软、硬件资源趋势预测,提前预警资源越限。
02项目解决方案
通过创新部署双层智能架构,率先定义“一致性、可靠性、性能负载、容量”四大类网络隐患监测体系,实现从“以故障为中心”的被动运维转换为“以健康为中心”的主动性运维。
1、双层智能网络架构:
Ø 网元层嵌入式AI:EAI(embedded artificial intelligence,嵌入式人工智能)通过边缘AI的计算推理能力,实现设备内海量KPI异常检测、设备资源预测等能力。
Ø 网络层AI:通过iMaster NCE大数据算力能力,在线分析、计算网络千万级的KPI数据、配置数据、性能数据。
2、四大类网络网络隐患监控体系:
Ø 配置一致性风险监控:通过对千万级的网元配置基于AI 能力周期性全网排查。基于全网配置文件自学习,结合配置语义图算法自动识别配置隐患,并支持AI+专家规则双重检测机制,监控效率从天级降低到分钟级,准确度达90%以上。
通过学习成熟的语义链接图模板,对每台设备自动配置纠错
Ø KPI可靠性风险监控:设计网元+网络两层AI架构,通过EAI对网络、网元、协议、业务四大类1000多项KPI状态实时感知+在线推理,结合NCE基于白数据的KPI异常模型的在线训练,自动输出分析报告。
Ø 性能负载风险监控:对全网数以万计的接口的光功率资源自动扫描分析,针对6大类关联指标在线自动学习,基于异常模型实现对光功率有效评估光功率异常风险,并提供处理优先级推荐、趋势、误码率等信息,快速闭环网络弱光隐患。
离线分析->在线训练,无需人工干预
Ø 性能负载风险监控:对网元类、协议类、业务类、网络类四大类30+关键软、硬件资源趋势预测,提前预警资源溢出风险,现网部署后预测准确率可达90%以上。
美团两天蒸发4854亿
03 项目应用情况和价值概述
网络隐患管理系统已在河南移动正式上线,已形成规模化、标准化的网络隐患事件管理机制,方案通过创新构筑了基于AI的传输网络隐患风险预警体系,并在性能、复杂度等技术上取得关键突破,通过对网络的定期全面“体检”,保障了传输网络的高稳运行:
1. 提高网络的可靠性和稳定性:创新通过业务指标标注网络指标,自动生成有标签的样本数据,应用有监督的机器学习算法,结合千万行级配置同时扫描,风险隐患识别准确度达到90%+,保证业务的正常运行。
2. 优化网络性能,提高用户体验:通过定期“体检”,提前发现和解决网络及性能隐患,及时采取措施优化网络性能,避免了网络故障对业务造成影响,提高网络的响应速度和传输效率,保障用户体验,维护成本节约150+/人年。
3. 创新定义预测性风险预警机制:多种类资源场景自适应,实现了从被动运维到主动运维的转变,实现了风险感知到定位的自管理,保证业务7X24在线。
针对全网14451台 SPN设备全流程自动化”体检”