上海论文网提供MBA论文选题服务,专业提供硕士毕业论文服务。
导航 当前位置:上海论文网 > 计算机论文 > 正文
基于集成学习的电力CPS网络攻击识别方法分析
  • 论文价格:150
  • 用途:硕士毕业论文 Master Thesis
  • 编辑:若诗
  • 点击次数:
  • 论文字数:40469
  • 论文编号:el2021090811531724970
  • 日期:2021-09-11
  • 来源:上海论文网
本文是计算机论文,本文从量测数据挖掘的角度给出一套电力CPS网络攻击识别方法,包括网络攻击数据的平衡化处理,网络攻击识别最优特征子集的选择以及网络攻击识别模型设计几个部分。所取得的研究结论如下:(1)提出了基于JMIM算法的网络攻击识别最优特征子集选择方法,解决了当前备选特征和标注的互信息被高估的弊端,使关键特征被尽可能多的被保留下来,冗余特征被有效剔除,提升了网络攻击的识别精度。数据维度明显降低,大幅度降低了模型的复杂度,降低了模型陷入过拟合的风险,提升网络攻击的识别效率。(3)设计了基于Lightgbm算法的网络攻击识别模型,以此网络攻击识别模型的设计为核心工作,结合数据平衡化处理以及网络攻击识别特征子集的选择,给出一套电力CPS网络攻击识别方法——CKS-JMIM-FLGB。综上,本文提出一种改进的Lightgbm集成学习算法并将其作为网络攻击识别模型,以焦点损失函数作为梯度提升过程中误分类损失的度量,使之前迭代过程中的误分类样本得到过多关注,从而提升此类样本的分类精度。在整体上提升网络攻击的识别精度,使网络攻击识别模型的性能更加稳定。以该模型为核心,结合网络攻击数据的平衡化处理以及网络攻击识别最优特征子集的选择,给出一套完整的电力CPS网络攻击识别方法。数据质量是影响机器学习算法上限的关键因素之一。

......

 

第1章绪论

 

针对电力CPS发起的网络攻击由于其较强的隐蔽性和可达性,给电力系统造成了严重的威胁。且在网络攻击发生后,物理侧量测系统采集的数据和电网故障时具有很高的相似性,且不同攻击也使得物理测量测数据存在一定的相似性,因此传统的基于电路原理的识别方案存在攻击和故障之间易误报的弊端。机器学习算法针对特征进行学习,而不需要复杂的复频域的数学建模计算,本身具有很强的智能性,适用于解决电力CPS的网络攻击识别问题。然而,对于传统的机器学习算法来说,在解决是否存在攻击等二分类问题中已经取得了很高的识别精度,但是在不同攻击之间的区分上还处于研究阶段。针对上述问题,本文提出一种基于集成学习的网络攻击识别方法。集成学习算法的核心思想是将弱学习器整合起来得到的强分类器,强学习器在复杂数据集上较传统的机器学习算法精度更高,且在复杂度上比深度学习算法更低。一般来说,电力系统长期运行,发生网络攻击概率较低,即非攻击样本和攻击样本的数量差异较大。且网络攻击的时长,强度是决定物理测数据状态的关键因素。攻击强度大,持续时间长可能直接引起物理系统崩溃,量测系统难以甚至无法获取量测数据表征攻击状态。强度低、时间短的攻击类型引起物理系统的扰动,量测系统获取数据相对容易。因此,攻击和非攻击样本之间,不同攻击类型之间的样本数量差异,为机器学习算法的训练带来了较大的不利影响。对上述问题,本文提出一种网络攻击数据平衡化处理方法,设计一种中心化Kmeans-Smote过采样算法,在原始的不平衡数据集上执行过采样操作,获取足量的伪样本。伪样本的加入使得各类别数据样本数量偏差趋于0,从而在数据侧实现了数据平衡,避免了更改分类器引起的模型复杂度的上升问题。数据的平衡使分类器对于各类样本都能充分学习,从而降低因某一类样本数量过少引起的误报率过高的问题,使网络攻击的识别性能更加稳定。

.....
 

第2章相关理论与技术

 

2.1电力CPS网络攻击机理分析
本节以量测数据篡改攻击、控制信号篡改攻击以及设备信息篡改攻击几种典型的网络攻击路径进行分析。一个典型的电力信息物理系统结构如图2-1所示,传感器将物理设备运行产生的数据经通信设备实时上传至信息层,信息层经分析后将控制指令经控制器下达至电力设备,完成信息侧对物理侧的智能控制。电力CPS是电网智能化的高度体现,然而信息物理的紧密耦合关系,使得电网的复杂度大幅度上升。复杂系统潜在的网络漏洞难以及时发现,给物理电网的稳定运行造成严重的威胁[37]。其中,量测数据篡改攻击发生在量测数据经过通信系统上传到信息层的过程中,虚假数据被注入到量测数据中并绕过不良数据检测机制,引发错误的状态估计。控制信号篡改攻击发生在信息层经通信设备向控制器分配控制信号的过程中,真实控制信号被恶意篡改,使物理设备失去稳定控制。设备信息篡改攻击发生在具体电力设备上,这些设备运行的某些关键参数被恶意篡改,进而不受信息层的正常控制。(2)电力CPS网络攻击原理分析本节对量测数据篡改攻击、控制信号篡改攻击以及设备信息篡改攻击等几种典型的网络攻击原理进行分析。本文的设计目的就是针对量测数据篡改攻击、控制信号篡改攻击以及设备信息篡改攻击几种网络攻击事件,提供一套智能、高效、精准度高的识别方法。
计算机论文格式
电力CPS网络攻击入侵路径

 

2.2Kmeans-Smote过采样技术
数据不平衡是机器学习的分类任务中经常面临的问题。以一个二分类任务为例,当正负例训练样本数量分别为99和1时,此时就是一个类别不均衡问题。负例样本称为少数类,正例样本称为多数类。类别不均衡在机器学习算法训练时极易引起误报率过高的问题,因为少数类样本在训练时提供的信息很少,算法难以学习得到足够的知识,在面对未知数据时的预测精度往往很低。结合上例分析,数据集中仅包含一个负例样本,即使训练结束后将其判断为正例,训练精度仍然高达99%,主观判断这仍然是一个可靠的模型,但是负例样本训练精度为0%,预测阶段负例样本误报率会偏高。因此,在不均衡数据集下,训练准确率不能成为评价模型性能的唯一指标[41]。过采样技术是通过算法规定的规则来合成少数类样本的一种技术,算法执行后少数类样本数量上升,和多数类样本处于同一数量级,从而实现数据集平衡的目的。和欠采样算法相比,过采样算法可以避免丢失重要样本引起的欠拟合问题,但是同时也面临采样策略存在不足引起的噪声问题。因此,合理的采样策略有助于提升伪样本合成的合理性,降低采样后数据集的噪声水平[42]。为了降低网络攻击识别的误报率,本文设计基于Kmeans-Smote过采样算法的网络攻击数据平衡化处理方法。在少数类样本内部依次采用Kmeans聚类算法进行聚类处理,依据各聚类生成的簇内样本多少决定采样生成的伪样本数量。实现类内离散度和类间离散度的平衡,弱化采样引起的数据噪声,同时实现数据平衡

 

第3章网络攻击数据平衡化处理...........................................................................................12
3.1引言.............................................................................................................................12
3.2基于Kmeans-Smote的网络攻击数据平衡化处理..................................................12
第4章网络攻击识别最优特征子集选择...............................................................................21
4.1引言.............................................................................................................................21
4.2基于JMIM算法的网络攻击识别最优特征子集选择.............................................21
第5章基于集成学习的网络攻击识别方法.........................................................................28
5.1引言.............................................................................................................................28
5.2基于Lightgbm的网络攻击识别模型.......................................................................28

 

第5章基于集成学习的网络攻击识别方法

 

5.1引言
针对电力CPS发起的网络攻击具有较强的隐蔽性,使网络攻击识别算法的设计更加困难。从物理侧分析,网络攻击影响下和故障因素影响下的量测数据具有一定的相似性,传统的状态估计法易产生误报。机器学习方法由于其高智能,高效率的特性,在网络攻击识别领域受到大范围应用。然而,传统的支持向量机,K近邻等算法决策机理比较简单,在复杂数据集上学习能力不足,尤其面对多分类问题时训练精度偏低。为了提升电力CPS网络攻击识别精度,本文在数据平衡处理和特征选择的基础上,提出一种基于集成学习的电力CPS网络攻击识别方法,对电力CPS网络攻击的识别提供一种精准、高效、稳定的解决方法。重要依据如下:(1)广域测量系统的部署,为基于物理侧数据挖掘的网络攻击识别方法提供了数据支撑,海量的数据中蕴含丰富的知识,可以充分表征网络攻击发生后电力CPS物理侧状态,机器学习算法可以快速建立起高精度的网络攻击识别模型。(2)基于机器学习的网络攻击识别方法避免了复杂的电力时域频域动态方程的求解,仅需要根据电力数据的特点有针对性地设计算法,其设计环节相对较少。(3)集成学习算法由于其高识别精度以及在大数据处理方面的优势,在解决电力CPS的网络攻击识别问题上相比传统的机器学习算法有很大的优势。

 

5.2基于Lightgbm的网络攻击识别模型
本章采用焦点损失函数对Lightgbm算法进行改进,改进的Lightgbm算法经网络攻击数据驱动后得到网络攻击识别模型。本文将该模型和网络攻击数据平衡化处理以及网络攻击识别最优特征子集选择相结合给出一套电力CPS网络攻击识别方法——CKS-JMIM-FLGB。经焦点损失函数和贝叶斯优化后,错分样本的识别精度得到明显提升,进一步提升网络攻击的识别精度。在大、小样本数据集上对最终的CKS-JMIM-FLGB方法的性能进行验证,实验结果表明,本文设计的CKS-JMIM-FLGB网络攻击识别方法在数据集严重不平衡、数据维度过高、存在分类困难样本条件下实现了网络攻击的高精度识别,且该模型在小样本数据集上仍然适用,受噪声数据样本影响不严重。综合上述分析,本文提出的网络攻击识别方法可以有效识别针对电力CPS的几种网络攻击事件,对电力CPS网络攻击防御系统的设计提供了可行的思路和方案。集成学习算法在模型复杂度方面比深度学习算法更加轻量化,且本身可以实现并行计算,模型的训练时间相对较短。综合上述分析,本节在数据平衡化处理和网络攻击识别最优特征子集选择的基础上,基于Lightgbm集成学习算法设计电力CPS网络攻击识别方法,实现了电力CPS网络攻击的高精度识别。在样本数量有限的条件下,数据不平衡造成少数类的欠学习,在评估阶段误报率偏高。电力CPS的网络攻击识别问题属于电网安全领域,对网络攻击识别模型的精度要求更高,因此由数据不平衡引起的网络攻击识别误报率过高、性能不稳定是亟待解决的问题。针
计算机论文范文
Kmeans-Smote算法执行流程

......
 

结论

 

在模型设计过程中,引入焦点损失函数优化Lightgbm算法,使迭代过程中被错分的样本被更多部关注,提升下一次迭代的分类精度,进而从整体上提升网络攻击的识别精度。本文对电力CPS的网络攻击识别问题进行初步的探索和研究,但是所提出的模型和部分解决方案仍然存在一些不足,在未来的研究中可以考虑从如下几个方向入手:(1)本文针对谷歌公开数据提供的电力拓扑设计一套网络攻击识别模型,并取得了期望的识别精度和稳定性。然而由于实际电力系统难以获取大量的网络攻击数据,即模型对于不同规模,不同电力业务的CPS场景的适用性还需要进一步进行实验验证。因此在后续的研究中应该会针对不同业务,不同规模下的CPS网络攻击场景进行实验分析,以验证方法的普适性。(2)实际的大型复杂信息物理融合系统对数据分析的实时性要求更高,因此需要进一步引入新一代人工智能技术,对大型电力系统的网络攻击识别问题进行更加精准和快速的求解。(3)本文采用物理侧数据挖掘的角度对电力CPS的网络攻击识别问题进行求解,将来应该会进一步尝试从信息物理融合数据挖掘的角度解决此问题,以更加全面地解决信息物理耦合过程中的数据安全问题。
参考文献(略)