机理数据双驱动结合的性能劣化故障根因定位方法与流程

文档序号：27753647发布日期：2021-12-03 20:48阅读：411来源：国知局

导航： X技术> 最新专利> 电子通信装置的制造及其应用技术

1.本发明属于智能运维(aiops)领域，具体涉及一种机理数据双驱动结合的性能劣化故障根因定位方法。

背景技术：

2.随着通信相关技术的不断发展和应用领域的不断扩展，越来越多种类和数量的移动设备接入移动网络，移动网络在生产生活中的角色越来越重要。与此同时，随着移动网络在生产生活中的应用，网络故障影响用户的使用体验，甚至造成巨大损失并且威胁社会的稳定安全，因此，移动网络运维具有重要的现实意义。
3.网络性能劣化的根因定位作为网络运维的重要部分，通过识别网络组件的指标异常来识别故障根因，并向管理人员提供故障根因列表及预测概率，帮助管理人员准确快速地定位故障根因，针对性进行核心问题解决修复，提升故障响应速度和用户体验。
4.当前，复杂的网络故障问题定位仍然依赖于专家经验，缺乏自动化的手段。并且专家经验方法存在经验方法模糊难以继承、灵活性较低、缺乏联合思考等问题。在实际需求和数据情况方面，首先，电信网络的故障定位方法需要满足可解释性，以辅助工程师进行根因定位；其次，因果关系图中结点之间存在异构的图关系，而学术界现有的因果关系学习方法默认结点间关系同构；此外，数据存在严重的属性缺失情况、缺乏标签数据等具体问题。

技术实现要素：

5.针对上述问题，本发明提供了一种机理数据双驱动结合的性能劣化故障根因定位方法，该方法可以学习告警之间的因果关系，构建因果关系表示，从而降低对业务专家的依赖，并且提升根因定位准确性和故障处理的效率。
6.为达到上述目的，本发明采用如下技术方案来实现的：
7.机理数据双驱动结合的性能劣化故障根因定位方法，该方法从可解释性需求、标签数据有限的情况出发，将性能劣化故障根因定位方法分解为两个步骤：
8.基于图神经网络的因果关系学习模块，考虑变量的物理性质和变量之间的理论物理关系，从异构角度建立因果关系学习模型，学习变量之间的影响关系，即因果关系；
9.基于介入指标和分布指标的因果推理模块，研究操纵特定变量值对其他特定变量的影响，从而推断不同样例中变量值对性能下降现象的影响程度，进而推断故障的根因集合及对应概率。
10.本发明进一步的改进在于，已知因果关系图，考虑变量之间的理论物理关系，设计基于泛化图神经网络的因果关系学习模型，构建变量之间因果关系的表示，具体包括以下步骤：
11.1)因果关系图解耦：
12.结合变量的物理性质、变量之间的理论物理关系以及数据严重缺失情况，将因果关系图分层进行解耦训练；
13.2)各分层关系学习模型解耦设计和训练：
14.结合专家知识和理论物理关系，将神经网络模块特点与关系特点进行对应选取，使用lstm、全连接层等基础神经网络单元以及残差连接、attention机制神经网络模块进行基础关系的搭建，并对实际情况中可能出现的偏差情况进行相应改进。
15.本发明进一步的改进在于，变量之间因果关系存在阈值判定类分段非线性关系时，采用全连接层和relu激活函数进行模型搭建，具体数学表示如下：
16.x
′
＝max(0,xw
2t
+b2)。
17.本发明进一步的改进在于，变量之间因果关系需要考虑空间结构并且存在相互影响关系时，采用transformer模型中的attention模块加权更新统一表示，公式表示如下：
18.y＝attention(x0,x1,
…
,x
n
)。
19.本发明进一步的改进在于，变量之间因果关系为反馈关系时，设计全连接层将输出作为反馈变量，对受反馈的变量进行拼接和变量表示学习处理，即当变量x和变量y之间存在反馈关系，变量y由变量x生成，那么变量y的反馈变量y
up
表示为：
20.y
up
＝f
up
(y)
21.x
′
＝f
b
([x；y
up
])
[0022]
其中，f
up
为线性模型，并且不同变量的反馈计算模型参数共享；f
b
为常见的全连接层叠加激活函数层的形式。
[0023]
本发明进一步的改进在于，在变量之间的因果关系模糊时，采用集成学习方法，引入通用的神经网络模型，包括lstm、transformer和mlp，学习因果关系在理论之外的偏差部分，提升关系学习的准确率。
[0024]
本发明进一步的改进在于，因果推理模块将因果关系学习模块的训练模型作为因素间因果关系表示的先验知识指导，计算指标介入后期望样本的偏差情况作为介入指标，再统计满足期望性能的历史样本的因素分布，计算性能劣化样本的分布异常情况作为分布指标，综合介入指标以及分布指标进行最终故障根本原因的推理。
[0025]
本发明进一步的改进在于，介入指标，是联合考虑因果关系以及因果效应的干预的指标，由以下步骤构造得到：
[0026]
1)观测结果估计：
[0027]
通过对满足期望性能的历史数据进行统计，由各个因素历史均值组成的单个数据点作为因果推断的研究单元，估计不进行治疗的观测结果y
f
；
[0028]
2)独立处理效应计算：
[0029]
对性能不符合期望值的异常样本的每一个变量进行因果推断，研究改变原始样本的某个变量值会在多大程度上影响一个可能的结果，计算独立处理效应值：
[0030]
ite
i,k
＝y(w
i,k
＝1)
‑
y(w
i,k
＝0)＝y(do(x
i,k
＝a))
‑
y
f
[0031]
其中，ite
i,k
表示使用第i个异常样本的第k个变量值对研究单元进行干扰的独立处理效应值，do(
·
)为干扰操作算子；
[0032]
3)介入指标计算：
[0033]
由于干扰因子的潜在结果对应分层的结果，不同结果的度量不同，因此最后针对结果进行归一化处理，得到最终的介入指标：
[0034][0035]
其中，α
i,k
表示使用第i个异常样本的第k个变量值对研究单元进行干扰的介入指标，ite
i,k
为介入的ite值，y
f
为当前模型层的观测结果，为观测结果的最小可能取值。
[0036]
本发明进一步的改进在于，设计分布指标衡量历史数据扰动情况对变量异常判断的影响，使用密度估计的非监督学习方法，假设变量服从正态分布，在已知均值和标准差的情况下，计算异常样本对应的因素服从期望因素分布的概率：
[0037][0038]
从异常的角度分析，服从正常分布的概率越小，异常程度更显著，因此第i个异常样本的第k个变量值的分布指标计算公式为：
[0039]
β
i,k
＝1
‑
p(x
i,k
；μ
k
,δ
k2
)
[0040]
其中，μ
k
、δ
k
分别表示第k个变量值历史数据的正常指标的均值和标准差，x
i,k
为第i个异常样本的第k个变量值。
[0041]
本发明进一步的改进在于，将上述两个异常指标整合作为变量的联合指标，进行分类处理，从而定位性能劣化故障的根本原因。
[0042]
本发明至少具有如下有益的技术效果：
[0043]
本发明提供的机理数据双驱动结合的性能劣化故障根因定位方法，该方法学习了指标变量之间因果关系的异构表示，并建立异常检测模块，将介入指标和分布指标作为检测指标进行故障定位，该方法在5g速率性能劣化场景中进行了验证，大大提升了传统方法根因定位的准确率。此外，算法具有可解释性利于维护工程师的实际应用，不同局点的数据实验表明模型有较好的通用性，方案具备可推广性。方案分析与结论可下放至运维基层，提升运维效率，降低运维成本。
附图说明
[0044]
图1为机理数据双驱动结合的性能劣化故障根因定位方法的整体框架；
[0045]
图2为机理数据双驱动结合的性能劣化故障根因定位方法的因果关系图示意图；
[0046]
图3为机理数据双驱动结合的性能劣化故障根因定位方法的因果关系图解耦结构示意图；
[0047]
图4为机理数据双驱动结合的性能劣化故障根因定位方法的因果关系模块第一层解耦模型设计示意图。
具体实施方式
[0048]
下面结合附图和实施例对本发明作进一步详细描述。
[0049]
实际场景中，移动网络具有复杂的无线通信环境以及网络部署结构，不同场景下性能劣化现象会有一定差异，但是网络影响因素的因果关系框架无差异。在少量数据和场景差异的前提下，如何设计方法学习具有推广意义的因素间网络因果关系并进行根因定位、推断当前现象的根本原因存在巨大挑战。对于故障定位和根因分析问题，学术界在通信
网络运维领域没有成熟的解决方案；工业界的主要技术为专家系统，严重依赖专家经验总结的自动化故障树通常采用独立判断的原则，缺乏联合思考，维护和更新耗费大量人力物力。
[0050]
综合上述情况，参考图1，本发明提出一种机理数据双驱动结合的性能劣化故障根因定位方法，针对实际性能掉坑场景中所有的标签都需要人工进行标注，标注的数据较少且不全面的情况，本发明将故障根因定位问题分解为两个子问题：第一，如何在已知性能劣化影响因素的因果关系图及时段变量值的前提下，结合变量之间的理论物理关系，设计具有可解释性的根因关系学习算法，学习实际场景中变量之间的因果关系结构方程；第二，如何在已知复杂因果关系以及时段变量值的前提下，结合历史数据统计信息，定位不符合预期性能劣化(如速率、掉话率劣化等)情况数据的故障的根本原因。对应上述问题拆分，本发明将故障根因定位方法分为了因果关系学习模块和因果推理模块。
[0051]
参考图1，因果关系学习模块无需根因标签，目前学术界因果关系学习领域算法将因果关系视为同构关系，但本发明将专家知识提供的因果关联图和变量的理论物理关系作为先验知识，设计具有可解释性的异构因果关系学习算法，学习变量之间的因果关系学习模型。考虑到根因定位算法用于解决性能劣化场景的根因定位问题，根本原因对应了顶层父结点集合的参数表现，因此因果推理模块考虑选取与故障、根因表现相对应的指标进行分类学习，从而确定性能劣化的根因。
[0052]
下面将进行各个模块的具体描述：
[0053]
模块一——因果关系学习模块
[0054]
在图神经网络算法的具体设计方面，传统的图神经网络通常将图中结点关系信息表示为邻接矩阵，并采用黑盒模型实现相关任务训练。但本技术中采用的图神经网络方法考虑因果关系图中结点的理论物理关系，在网络设计上耦合了图的邻域信息，使用充分考虑理论物理关系类型的异构邻接关系构建方法，为模型和结果计算提供可解释理论。
[0055]
结合变量的物理性质、变量之间的理论物理关系、数据严重缺失情况，将因果关系图进行解耦训练，划分为三大层，参考图2和图3。
[0056]
此外，本模块沿用有向无环图关系表示的假设，在因果关系学习模型的指导下，变量可以使用父结点表示：
[0057]
x
j
＝f
j
(pa
j
(x
j
),u
j
(x
j
))
[0058]
其中，pa
j
(x
j
)为变量x
j
的父结点集合。
[0059]
以因果关系图为先验知识，目前父结点的选取严格按照图2中关系所示。因果关系学习模型在各分层内建立子模型，进行子结点的预测训练，使用各层模型的父结点集合数据作为模型输入，验证各层模型输出变量的预测准确性，以验证模型因果关系学习的效果。
[0060]
下面将简要介绍各层模型设计中的重要步骤。
[0061]
1)layer1关系模型设计
[0062]
参照通信原理和专家经验，设计部分的模型搭建严格按照遵守有向无环图中的假设，变量生成使用父结点表示。如ts38.306中基于香农定理的速率表达式，即为典型的通信原理，
[0063][0064]
其中，j为聚合载波数，为支持的最大层数，为调制顺序的最大支持调制阶数，f
(j)
为比例因子，r
max
＝948/1024，为分配的最大prb数，μ为子载波间隔，为子帧中的平均ofdm符号持续时间，oh
j
为开销。
[0065]
参考图4，为本发明因果关系学习layer1模块的设计。其中，变量之间因果关系存在大量的阈值判定类分段非线性关系，因此大多数关系的模型搭建均采用全连接层和relu激活函数，例如：
[0066]
x
″
b5
＝max(0,x
′
b5
w
2t
+b2)
[0067]
其中，x
′
b5
为伸缩处理后的图2中b5变量的值。
[0068]
参考图2，由于在layer1因果关系图中，b5处理后结点指向b4与b6两个生成结点，因此两个结点均由自身和b5值计算。
[0069]
2)layer2关系模型设计
[0070]
layer2层除基础的非线性关系外，根据业务知识，d4结点各个变量之间要考虑空间结构，并且变量之间会产生相互影响。因此采用transformer模型中的attention模块加权更新统一表示，模型设计为：
[0071]
y＝attention(x0,x1,
…
,x
n
)
[0072]
其中，x
i
表示伸缩处理后的c4结点第i个属性值，y表示c4经过算法处理后的变量表示。
[0073]
参考图3和专家经验，b4结点的调整流程存在反馈情况，模型中假设真实情况存在反馈关系，再结合b3及b4在因果关系图中的因果关系连接，假设由b3的反馈效应主导，即b3的反馈函数会影响到b4计算的c1、c2、c3值以及自身的选择，b3变量x
b3
对c2变量x
c2
的反馈计算公式：
[0074]
x
up_b3
＝f
up
(x
b3
)
[0075]
x
c2
′
＝f
b
([x
c2
；x
up_b3
])
[0076]
其中，f
up
为线性模型，并且不同变量的反馈计算模型参数共享；f
b
为常见的全连接层叠加激活函数层的形式。
[0077]
此外，由于第二层部分因素之间的因果关系模糊，运用集成学习思想，在第二层考虑加入传统的序列学习模型lstm进行偏差部分的协同学习：
[0078]
x
f,b2
＝αx
t,b2
+(1
‑
α)x
n,b2
[0079]
其中，x
t,b2
表示反馈模型后的b2的理论表示，x
n,b2
表示lstm学习的b2的偏差表示，x
f,b2
表示layer2算法计算后b2的最终表示。
[0080]
3)layer3关系模型设计
[0081]
参考图3和专家经验，由于layer3
‑
1层模型之间的关系表示明确，仅使用layer1提到的非线性模型即可完成模型的建立。
[0082]
layer3
‑
2层的变量存在拓扑结构，d3变量值表示多个个体的矩阵坐标，并且在根因描述中提出个体之间的距离较近会导致根因类型“root4”；此外，变量d4表示不同个体的
强度分布，并且在根因描述中提出个体强度差异会导致根因类型“root6”，因此构建d3之间的距离度量，同时考虑d4之间的差异，使用加权attention机制来进行差距的表示。
[0083]
使用2
‑
范数的平方表示两个d3变量值之间的距离，距离公式如下：
[0084][0085]
关于d4强度之间的差距角度，使用已有的attention机制来进行差距的表示，并融合d3空间距离部分。
[0086]
首先进行初始特征结点嵌入：
[0087]
q
d4,i
＝x
′
d4,i
w
t
+b
[0088]
其次，attention机制的函数表示为：
[0089]
a
d4
＝attention(q
d4
,k
d4
,v
d4
)＝(d
·
softmax(q
d4
k
d4t
))v
d4
[0090]
其中，d为空间距离矩阵，q
d4
＝(q
i
)为各个个体的加权d4矩阵，k
d4
、v
d4
均为各个个体的d4矩阵。
[0091]
最终，d4的attention输出x
d4
再通过聚合、全连接层和激活层获取，表示为：
[0092]
x
d4
＝tanh([a
d4
；q
d4
]w
t
+b)
[0093]
其中，a
d4
为attention机制输出，q
d4
为各个个体的加权d4矩阵，[；]为concatenate操作。
[0094]
4)目标函数
[0095]
由于因果关系学习任务中没有对因果关系(边)的先验信息，因此因果关系学习问题转换为了独立层的子结点预测的回归问题。因果关系的预测越准确，在已知父结点值预测子结点值时越能准确地预测实值输出标记。因此选用回归问题中常用的均方误差(mse)函数作为模型训练的损失函数。
[0096]
使用mse函数检测模型的预测值和真实值之间的偏差，损失计算公式如下所示：
[0097][0098]
模块二——因果推理模块
[0099]
本发明用于解决性能劣化场景的根因定位问题，根本原因对应了顶层父结点集合的参数表现，因此考虑选取与故障、根因表现相对应的指标进行分类学习，从而确定性能劣化的根因。
[0100]
参考图1，因果推理学习模块将因果关系学习模块的训练模型作为因素间因果关系表示的先验知识指导，计算变量值介入后期望样本的偏差情况作为介入指标，再统计满足期望性能的历史样本的因素分布，计算性能劣化样本的分布异常情况作为分布指标，综合介入指标以及分布指标进行最终故障根本原因的推理。
[0101]
介入指标，是联合考虑因果关系以及因果效应的干预的指标，具体的计算过程如下：
[0102]
1)观测结果估计：
[0103]
通过对满足期望性能的历史数据进行统计，由各个因素历史均值组成的单个数据点作为因果推断的研究单元，确定不进行治疗，即w＝0时，观测结果y
f
为：
[0104][0105]
其中，表示历史期望数据的性能均值。
[0106]
2)独立处理效应计算：
[0107]
对性能不符合期望值的异常样本的每一个变量进行因果推断，研究改变原始样本的某个变量值会在多大程度上影响一个可能的结果。如对某个异常样本的第k个变量值x
i,k
＝a进行因果推断，计算独立处理效应值：
[0108]
ite
i,k
＝y(w
i,k
＝1)
‑
y(w
i,k
＝0)＝y(do(x
i,k
＝a))
‑
y
f
[0109]
其中，ite
i,k
表示使用第i个异常样本的第k个变量值对研究单元进行干扰的独立处理效应值，do(
·
)为干扰操作算子。对于干扰的潜在结果计算问题，使用表示因果关系的因果关系学习模型计算分层的输出结果。
[0110]
3)介入指标计算：
[0111]
由于干扰因子的潜在结果对应分层的结果，不同结果的度量不同，因此最后针对结果进行归一化处理，得到最终的介入指标：
[0112][0113]
其中，α
i,k
表示使用第i个异常样本的第k个变量值对研究单元进行干扰的介入指标，ite
i,k
为介入的ite值，y
f
为当前模型层的观测结果，为观测结果的最小可能取值。
[0114]
介入指标只考虑了历史数据的均值情况，而忽略了历史数据扰动情况对变量异常判断的影响。因此，考虑分布指标作为衡量当前数据异常水平进行根因推断的第二个指标。
[0115]
分布指标的计算方法为异常检测的常见方法，即密度估计的非监督学习方法，结合期望样本的所有变量的历史分布的均值和标准差两个因素，假设变量服从正态分布，即在已知均值和标准差的情况下，计算异常样本对应的因素服从期望因素分布的概率：
[0116][0117]
上述公式表示异常样本的某指标服从正常指标高斯分布的概率，从异常的角度分析，服从正常分布的概率越小，异常程度更显著。因此第i个异常样本的第k个变量值的分布指标β
i,k
计算公式为：
[0118]
β
i,k
＝1
‑
p(x
i,k
；μ
k
,δ
k2
)
[0119]
其中，μ
k
、δ
k
分别表示第k个变量值历史数据的正常指标的均值和标准差，x
i,k
为第i个异常样本的第k个变量值。
[0120]
在获得上述两个指标之后，首先将上述两个异常指标整合作为变量的联合指标。由于根本原因对应具体因素的特定异常表现，因此可以在联合异常指标的基础上进行分类处理，从而定位性能劣化的根本原因。本模块中采用的分类器为神经网络模型。
[0121]
神经网络模型首先将两个异常指标进行加权处理，选取可学习权重，公式表示如下：
[0122]
p
i,j
＝k
·
α
i,j
+(1
‑
k)
·
(β
i,j
)
[0123]
其中，α
i,j
、β
i,j
、p
i,j
分别为第i个异常样本的第j个变量值对应的介入指标、分布指标和联合指标，k∈[0,1]为可学习权重。
[0124]
将联合指标作为输入进行分类计算，分类模型如下：
[0125][0126][0127]
其中，p
i
＝{p
i,k
}
k∈k
为第i个异常样本所有因素的联合异常指标集合,p
i,k
表示第i个异常样本第k个因素的联合异常指标；为最终的分类模型输出，表示第i个样本划分为第j个类别的概率。
[0128]
本发明在现网测试环境数据集测试下大幅提高了传统方法的根因定位准确率，同时具备高召回率。不同局点的数据实验表明模型有较好的通用性，方案具备可推广性。此外，本发明采用具有可解释性的高效算法，有利于维护工程师的实际应用，方案分析与结论可下放至运维基层，提升运维效率，降低运维成本。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨树森;杨煜乾;高炅;徐宗本;薛江;孙建永;王楠斌;缪丹丹
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种降解塑料牛奶瓶生产工艺的制作方法
上一篇：一种复核方法、装置和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。