搜索
您的当前位置:首页面向网络实时风险预测的马尔可夫时变模型

面向网络实时风险预测的马尔可夫时变模型

来源:飒榕旅游知识分享网
第33卷第2期 2 0 1 2年2月 兵 工 学 报 Vo1.33 No.2 Feb. 2O12 ACTA ARMAMENTARII 面向网络实时风险预测的马尔可夫时变模型 刘刚,李千目,刘凤玉,张宏 (南京理工大学计算机科学与技术学院,江苏南京210094) 摘要:为了能实时准确地预测网络风险发生的可能性,帮助管理员对网络中的风险进行有效 的管理,本文提出了一种用于实时风险概率预测的马尔可夫时变模型。基于此模型,给出了风险概 率预测方法,通过实时更新模型中的状态概率转移矩阵,来预测未来时刻网络的风险概率。仿真实 验将此模型应用于网络攻击环境下,结合特征提取、统计学习,来预测网络在不同风险等级下的概 率。同传统的马尔可夫预测模型相比,该模型具有更高的实时性、客观性和准确性。 关键词:计算机应用;安全风险预测;马尔可夫时变模型;网络攻击 中图分类号:TP309 文献标志码:A 文章编号:1000—1093(2012)02-0163—07 A Time-Varying Markov Model and Its Application to Network Real-time Risk Probability Prediction LIU Gang,LI Qian-mu,LIU Feng-yu,ZHANG Hong (School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,Jiangsu,China) Abstract:In order to predict the 1ikelihood of network risks accurately and in rea1.time.and help the ad— ministrators to manage network risks effectively,a Time—Varying Markov Model(TVMM)for real-time risk probability prediction was proposed.A real-time risk probability prediction method,which is able to predict the probability of network risk in future exactly with a real・・time--updating・-state probability transi・- tion matrix of TVMM,was presented.Combined with the theory of feature extraction and statistical learn- ing,the model was used to calculate the risk probability of the network at different risk level in network attack environment.The resuh shows that TVMM has higher real—time,objectivity and accuracy than the traditional Markov mode1. Key words:computer application;time—varying Markov model;security risk prediction;network attack 0 引言 随着网络技术的广泛应用,其多样性、开放性和 互联性的特点,给网络带来了巨大的风险影响,使得 网络容易受到各种攻击的威胁。如果能够实时准确 性至关重要。 为了能够有效地预测网络安全风险,近年来,研 究人员纷纷对风险预测进行了研究。文献[1]提出 了一种基于免疫的网络安全风险检测模型,通过检 测网络虚拟抗体浓度,在网络系统面临攻击时对其 进行实时风险评估,但该方法仅检测出风险的大小, 的预测网络中的安全风险概率,则对提高网络安全 收稿日期:2010—07—28 基金项目:国家自然科学基金资助项目(60903027);南京理工大学自主科研专项计划资助项目(2010XQTR04) 作者简介:刘刚(1985一)男,博士。E-mail:liugang_nj@163.COIT/; 张宏(1956一)男,教授,博导。E—mail:zhhong@mail.njust.edu.cn 兵 工 学 报 第33卷 并未能预测出未来的风险发生概率。文献[2]利用 BP神经网络,结合平均向量相似系数来预测信息交 互风险概率,但由于神经网络结构的选择缺乏理论 指导,而且对大样本数据学习速度慢,故该预测模型 缺乏实时性。文献[3]基于灰色理论提出了一种 P2P网络架构下的风险评估预测方法,但该方法存 在明显的系统误差,使得预测的准确性不高。 本文基于马尔可夫模型,摒弃马尔可夫预测对 系统状态转移概率矩阵不随时间变化的假设,提出 了一种新的网络安全攻击实时风险概率预测模型。 l 马尔可夫时变预测模型 定义:马尔可夫链是随机变量 , , …的一 个数列。随机变量的范围,被称为“状态空间”。如 果 对于过去状态的条件概率分布仅是 的一 个函数,则 P(X + =i + l Xl= l,X2=i2,…,X =i )= P(X…=i…I =i ), 这里X =i…为t+ 时刻过程处于 …状态。 上面这个恒等式可以被看作是马尔可夫性质。 即t+ 时刻系统状态X…=i…的概率分布只与t 时刻的状态有关,与t时刻以前的状态无关。 定义:马尔可夫链模型可表示为(s,P, ) ,其 中, 1)s是系统所有可能的状态所组成的非空的 状态集,即系统的状态空间。如网络的状态空间为 S={1,2,…,Ⅳ}其中1表示始态,Ⅳ表示终态。 2)P=[P (t,t+ )] 是系统的状态转移概 率矩阵,P (t,t+ )=P{ …= l =i},i,_『∈s表示 系统在时刻t处于状态i,经过后步状态转移处于状 态 的概率。由于链在时刻t从任何一个状态出发, 到另一个时刻t+ ,必然转移到诸状态中的某一个, n 所以对于任意i E S,则有∑P (t,t+ )=1,0≤ P (t)≤1,i,J∈S. 3)仃=[7r 7r …7r ]是系统的初始概率分布, 7r,是系统的初始时刻处于状态i的概率,满足 ∑仃。=1 对于P (t,t+ )=P{X =j JX =i},i, ∈S,当 =1时,称p (t,t+1)=p (1)为时刻t的一步状态 转移概率,记,为一步状态转移概率矩阵。 定理:设{X ,t=1,2…n}是一马尔可夫链,则对 任意的时刻u, ,有 P ( + )=∑P (u)P酊( ),i,j∈S,(1) 证明:对于固定的时刻s,u, 和状态i,J,|j},由条 件概率定义和乘法定理,有 P{ + + : , + = l =i}= P{ + = lX =i}X P{ + + =_『I + = , =i}= P (H)P ,( ). (2) 又由于事件组“ = ”,j}=1,2,…n构成一 个划分,故有 P。 (u+ )=P{ + + = :i}: ∑尸 … = ,X…=后IX,=i}, 将(2)式代入上式,定理得证。 (1)式写成矩阵形式 P + =P P . (3) 推论: 步转移概率矩阵是一步转移概率矩阵 的 次方。即P =P・P㈦=P 证明:利用(3)式,令u=1, =.i}一1,得递推关 系 P =PP l=PPP 2=…=P . 一一记行向量仃( )=[仃。( ),7r:(后),…,7r (k)], 其中,仃 (J})表示事件在初始( :0)状态为已知的 条件下,经过 次状态转移后,在第 个时刻处于状 态 的概率。且 ∑7rj( )=1. (4) 根据马尔可夫过程的无后效性、贝叶斯条件概 率公式及推论,有 订(1)=仃(0)P =仃(0)P, 仃(2)=仃(0)Pz 订(0)P , (5) : 订( )=仃(0)P =仃(0)P , 式中:仃(0)=[7r (0),仃:(0),…,7r (0)]为初始状 态概率向量。Pi(i=1,2,…, )表示系统的i步状 态转移概率矩阵。 从上述推理可以看出,传统的马尔可夫预测模 型是基于假设系统状态转移概率矩阵是不随时间变 化的。然而在许多实际问题中,特别是在网络攻击 环境中,状态的转移概率,是不断发生变化的,因此 本文根据系统状态来实时更新状态转移概率矩阵。 由于状态的转移概率是不断发生变化的,则由 第2期 面向网络实时风险预测的马尔可夫时变模型 165 (2)式可得 仃 仃 仃; 仃 1 2 3 = = = : 式中,P 仅为一个符号,表示t+1时刻对t时刻状态 仃 仃 仃 仃 0 1 2 转移概率矩阵的更新。(6)式中的P 并不相等。P P P 一  , ,、, 由以上分析可知,如果某一事件在第0个时刻 P 的初始状态已知,即仃(0)已知,则利用递推公式 (6),就可以求得它经过后次状态转移后,在第k个 时刻处于各种可能的状态的概率,即仃(k),从而就 得到该事件在第k个时刻的状态概率预测。因此, 6 如何确定状态转移概率矩阵P 是预测的关键。 2 基于Markov时变预测模型的实时风险 概率预测 网络攻击一般由信息收集阶段、攻击进行阶段、 攻击完成阶段三部分构成,根据攻击的不同阶段,将 网络风险状态划分为:无风险状态 (即网络处于 正常状态)、轻微风险状态 (网络处于被探测状 态)、较严重风险状态 (网络处于被攻击状态)和 严重风险状态 (网络已被攻陷)。这些状态构成 了马尔可夫时变预测模型中的状态空间,即S= { ,£,,£ ,£,},则网络的风险状态转移如图1所 示。 图1 网络风险状态转移 Fig.1 Risk state transition of network 由此可确定网络风险状态转移概率矩阵为 p工o 0 p£ 1 p :,PL幽、 l p IL0 pL Pl= P 2,PLJL3 lI ,・t/  pL2工o p工2 l PL2L2,PL2 IJ PL3 0 p L1 PL3£2,PL3£3 计算状态转移概率矩阵P。,就是计算从每个状 态转移到其他任何一个状态的状态转移概率。状态 转移概率的计算一般采用频率近似概率的思想进行 计算。 P f= , (8) n J 式中:n 从状态i出发,转移到状态 的样本数。 更新状态转移概率矩阵P 实时迭代的算法下: 第1步:根据以往历史样本数据,利用(7)式、 (8)式计算出初始的状态转移概率矩阵; 第2步:对历史样本数据进行初始化。输入数 据对象集 ,输入指定簇数目N,并在 中随机选取 Ⅳ个对象作为初始簇中心。设定迭代终止条件,比 如最大循环次数或者簇中心收敛误差容限; 第3步:进行迭代处理。根据相似度准则将数 据对象分配到最接近的簇中心,从而形成一簇。初 始化隶属度矩阵。以每一簇的平均向量作为新的簇 中心,重新分配数据对象; 第4步:反复执行第3步直至满足终止条件; 第5步:当新样本到达时,计算内聚度,得到新 样本所属网络风险状态簇别。结合上一个样本的风 险状态簇别,统计风险状态转移次数。然后回到第 1步重新计算状态转移概率矩阵,来更新。 内聚度计算步骤如下: 第1步:选取欧式距离作为簇划分标准。将新 样本记录看作一个rt维向量,任意两个171维向量i,J 的距离可以利用欧式距离来计算,设d(i,J)表示簇 G中任意两个向量间的距离,即 厂 —————————一 d(f√)=^/∑( 一Yk) . 第2步:计算簇的平均距离AVG—dis= ^ m ,,l d( ,‘J『)和最大距离MAX_dis= 。max(d(f,J)).得到簇的内聚度iner(G)= 垒 :坐 AVGdis‘ —内聚值越大,簇内元素越相似。之后根据状态 转移概率矩阵的计算方法,可得到新的状态转移概 率矩阵。在初始状态概率已知的条件下,利用(6) 式,即得出未来某时刻网络的各个安全风险状态概 率值。 3 仿真试验 为了验证实时风险概率预测的马尔可夫时变模 166 兵 工 学 报 第33卷 型的有效性,本文利用KDD CUP 1999数据集 来 做仿真试验。根据文献[6]对数据集中各攻击的具 体描述,根据攻击阶段不同,表1列出了各种攻击阶 段对应的风险等级。 表1 攻击分类 Tab.】 Attack classificati0n back、land、 guess—passwd、phf、buffer tipwrite、root- —neptune、Pod、 overlfow、imap load—kit spy warez- 一normal smurf、tear- module,muhihop、perl client、warez— drop、lpsweep、 portsweep master nmap、satan 由于KDD数据集太过庞大,故在KDD数据包 选取各攻击阶段的一种攻击数据进行实验。本文所 选取的攻击组合为nomal、satan、guess—passwd和ro— otkit.根据表1对38种攻击的分类,实验抽取2% 的normal数据(2 192条记录)、全部satan数据 (1 589条记录)、全部guess—passwd数据(53条记录) 和全部rootkit数据(10条记录)作为实验训练数据。 KDD CUP 1999数据集中共有41个定性和定量 属性特征,其中有8个离散属性变量,33个连续属 性变量。由于该数据集中属性太多,增加了分析的 复杂性,为了减轻分析的负担,提高风险预测效率, 实验中采取主成分分析法,对原有属性进行主成分 提取,降低特征向量维数 。在保证原始数据信息 损失最小的前提下,用较少的属性代替原来较多的 属性但依然能反映原有的大部分信息。 实验中除去了全部字符型属性变量和取值全为 零的属性变量,对剩下的26个属性进行特征提取, 提取特征值大于1、未经旋转的主成分。表2给出 了主成分分析的结果。 从表2可以看出,前6个主成分的累计贡献率 已达到81.437%,这6个主成分可以基本反映原有 属性所具有的信息,这样既减少了变量的个数,降低 了20/26=77%的运算量,又便于问题的全面分析 和研究。 主成分分析后,进一步对训练数据分成四个簇 用C ,C ,C,,C 来表示,分别代表四种安全风险状 态£。、三。、 :和 .图2给出了簇分布情况,表3给 出了簇分析结果,图3给出了簇的分布趋势。 当新样本数据到来时,将新样本数据分别加入 到上述4种簇中,然后根据内聚度的定义,分别计算 各簇的内聚度,比较内聚度数值的大小,内聚度数值 表2 主成分分析结果 Tab.2 The results of principal component analysis 图2簇分布情况 Fig.2 Cluster distirbution 第2期 面向网络实时风险预测的马尔可夫时变模型 167 表3 簇分析结果 Tab.3 The results of cluster analysis 2500 2O0o 簌1 500 (_ 茎1 000 50o O ■簇中样本个数一原始样本个数口正确翠 图3簇分布趋势 Fig.3 Cluster distribution trends 越大,说明新样本与该簇越相似,故可将新样本数据 加入到内聚度最大的簇中。 对训练样本数据中各状态转移的次数进行统 计,即前一时刻状态转移到后一时刻状态的次数,统 计结果如表4所示。 表4状态转移次数统计结果 Tab.4 The number of state transition statistics 利用(8)式计算的各个状态的转移概率,得到 如下初始风险状态转移概率矩阵 0.994 08 0.005 47 0.00045 0.005 66 0.992 45 0.001 89 P= 0.056 61 0.000 00 0.924 52 0.100 00 0.000 00 0.000 O0 (9) 由于起初网络是处于正常状态,故可认为其初 始状态概率仃(0)={1,0,0,0}。将仃(0)与(9)式 相乘,可以得到 仃(1)=仃(0)P= {0.994 08,0.005 47,0.000 45,0.000 O0} 作为网络当前的状态概率。 实验从kddcup.datat.txt剩余90%的数据中抽 取部分由normal、satan、guess—passwd和rootkit构成 的样本数据集作为测试样本,分4组进行测试。 时刻 。输入第一组实验测试样本,其由1 000 个normal样本数据组成; 时刻 接着输入第二组实验测试样本,由 1 000个satan样本数据组成; 时刻T3接着输入第三组实验测试样本,由5O 个guess—passwd样本数据组成; 时刻 最后输入第四组实验测试样本,由10 个rootkit样本数据组成。 当每一组新的测试样本到来时,先对样本进行 簇别划分,然后利用风险状态转移概率矩阵的计算 方法,重新计算状态转移概率矩阵。最后利用(6) 式预测未来各风险级别的概率。 表5至表8分别给出了第一组、第二组、第三组 和第四组测试样本的状态转移次数统计。 表5 第一组测试样本状态转移次数统计结果 Tab.5 The number of state transition statistics of the ifrst group of test samples 表6 第二组测试样本状态转移次数统计结果 Tab.6 The number of state transition statistics of the second group of test samples 根据状态转移概率矩阵更新算法,可分别得到 第一组、第二组、第三组和第四组状态转移概率矩 阵: 168 兵 工 学 报 第33卷 表7 第三组测试样本状态转移次数统计结果 Tab.7 The number of state transition statistics of the third group of test samples ,,0.999 O0,0.O01 O0,0.000 00,0.000 00、 l  0.l 250 O0,0.750 O0,0.000 00,0.000 O0 l l 0.000 O0,0.000 O0,0.000 O0,0.000 00 lI 1 0.000 00,0.000 O0,0.000 O0,0.000 00』 r0.000 00,1.000 00,0.000 O0,0.000 O0、 I 10.I 000 O0,1.000 O0,0.000 O0,0.000 00 I … l 0.000 O0,0.000 O0,0.000 O0,0.000 00 ll 1 0.000 O0,0.000 00,0.000 O0,0.000 00 J ,,0.000 O0,0.000 O0,0.000 O0,0.000 O0、 l  0表8 第四组测试样本状态转移次数统计结果 Tab.8 The number of state transition statistics of the fourth group of test samples . l000 O0,0.000 O0,1.000 O0,0.000 O0 l lI 0.000 00,0.021 27。0.957 46,0.021 27 ll l 0.000 00,0.000 O0,0.000 O0,0.000 O0 J ,,0.000 O0,0.000 O0,0.000 O0。0.000 O0、 l  0.I 000 O0,0.000 00,0.000 O0,0.000 00 l … Il 0.000 O0。0.000 00。0.000 00,1.000 00 lI 1 0.000 O0,0.000 O0,0.125 00,0.875 00』 表9给出了Markov时变模型预测结果,表10 给出了传统Markov预测结果。 表9 Markov时变模型预测结果 Tab.9 The results of Markov time-varying model prediction 第2期 面向网络实时风险预测的马尔可夫时变模型 169 1.000000,0.O0000O,0.000000,0.000000 0.994080,0.005470,n000450,0.000000 0.988 251,0.010 866,n000 873,0.000008 000 O0,0.924 52,0 n982 512,0.016 190,0.001 273,0.000024 n976 861。0.021 442,0.001 649,n000045 000 O0,0.000O0,0 005 47,0.00045,0 99245,0.001 89,0 从实验结果可以看出,基于马尔可夫时变模型 ,,,.。..................... 风险检测方法[J].电子学报,2005,33(5):945—949. WANG Yi-Feng,LI Tao,HU Xiao-Qin,et a1.A real—time method of risk evaluation based on artiifcial immune system for network se- O 0 O O 预测出的概率向风险等级高的状态转移的速度更 4 5 :∞6 兮m O 快。从输入的测试数据可以看出,网络在每一时刻 ∞ ∞ 的测试数据都是同一类型的数据,故网络在每一时 刻的风险状态应依次为 、 ,、 :和厶.由于马尔 可夫时变模型状态转移概率矩阵是随着样本的加入 O O O O cufity[J].Acta Electronica Siniea,2005,33(5):945—949.(in Chinese) [2] 刘芳,蔡志平,肖侬,等.基于神经网络的安全风险概率预测模 型[J].计算机科学,2008,35(12):28—33. L1U Fang,CAI Zhi—ping,XIAO Nong,et a1.Risk probability e8一 实时更新的,每次得到的网络状态概率也会不断更 新变化,这就使得对风险的预测更加准确客观。仿 O 0 O O O 0 O O 1 O 8 8 7 O 9 O O O timating model based on neural networks[J].Computer Science, 2008,35(12):28—33.(in Chinese) 真实验表明,应用马尔可夫时变模型在 时刻,网 络处于 状态的风险概率最高;在 时刻网络处 、、●●●●●●●●●/ [3] Liu X Y,Fu C,Yang J D,et a1.Grey model—enhanced risk as- sessment and prediction for P2P nodes[C]//Proceeding FCST’09 Proceedings of the 2009 Fourth International Conference on Fron・ tier of Computer Science and Technology.Washington:IEEE Com— puter Society,2009. O O O 0 O 于 。状态的风险概率最高;在 时刻网络处于 : 状态的风险概率最高;在 时刻网络处于 状态 8 O 1 5 2 2 l 5 2 6 8 7 9 2 9 9 4 9 8 8 9 8 2 9 7 6 9 7 1 的风险概率最高,预测结果与实际的测试样本相吻 O O 0 O O 合。而传统马尔可夫预测由于缺乏实时性,导致预 0 1 O O O l 2 O 2 O 5 0 6 1 6 [4] 尹清波,张汝波,李雪耀,等.基于线性预测与马尔可夫模型的 测结果与实际偏差较大,准确性较低。 4 7 0 O 8 6 6 0 l 9 O O 4 4 2 0 6 2 5 0 入侵检测技术研究[J].计算机学报,2005,28(5):900—907. YIN Qing—bo,ZHANG Ru—bo,LI Xue-yao,et a1.Research on technology of intrusion detection based on linear prediction and 4 结论 0 0 l 1 2 ∞ ∞ ∞ ∞ 4 5 8 7 2 7 6 5 O 0 本文提出了一种面向网络实时风险预测的马尔 O 0 4 O 4 0 O 0 5 O markov model[J].Chinese Journal ofComputers,2005,28(5): 900—907.(in Chinese) 可夫时变模型,与传统的马尔可夫预测模型相比,该 模型弥补了传统模型中状态转移概率矩阵不随时间 O 0 O O 2 4 O 7 O 变化的不足,通过实时更新状态转移概率矩阵,使得 0 9 4 6 3 ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ [5] KDD99.KDD99 cup dataset[DB/OL].http://kdd.ics.uei. edu/databases/kddcup99,1999. [6] DARPA.Training data attack description[EB/OL].http:// WWW.11.mit.edu/mission/eommunications/ist/eorpora/ideval/ does/attacks.htm1.2008—05一l4. 预测结果更加符合实际,更加客观与准确。并利用 DARPA的人侵检测数据,结合特征提取,对该模型 进行了仿真实验,实验结果表明该模型具有很好的 可行性和有效性。 参考文献(References) [1] 王益丰,李涛,胡晓勤,等.一种基于人工免疫的网络安全实时 [7] 吴枫,仲妍,吴泉源.基于增量核主成分分析的数据流在线分 类框架[J].自动化学报,2010,36(4):534—542. WU Feng,ZHONG Yan,WU Quan-yuan.Online classiifcation framework for data stream based on incremental kernel principal component analysis[J].Acta Automatica Sinica,2010,36(4): 534—542.(in Chinese) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top