ControlEngineeringofChinaNov.2010Vo.l17,No.6
文章编号:16717848(2010)06078203
基于粗糙集的不完备信息系统的知识获取
王莉,汤凌冰,史德嘉
(湖南商学院计算机与电子工程系,湖南长沙410205)
摘要:根据不完备信息系统(IIS)的数据不完整或不完备的特性,从粗糙集(RS)等价类的概念出发,提出了基于粗糙集理论的不完整数据集知识获取方法,利用该算法不仅可以从不完整数据集中提取规则,并且能够解决在学习过程中对训练事例属性未知特征值的估计问题。最后,给出具体的算例利用所给的算法求得信息系统的知识获取,并对所得的结果进行比较,从而说明所给算法的有效性和实用性,也证实了该算法可以有效地应用于复杂工业过程的专家系统知识库的建立。
关键词:不完备信息;粗糙集;粗糙集等价类;知识获取中图分类号:TP273文献标识码:A
KnowledgeAcquiringforIncompleteInformationSystemsBasedonRoughSet
WANGLi,TANGLingbing,SHIDejia
(DepartmentofComputerandElectronicEngineering,HunanBusinessCollege,Changsha410205,China)
Abstract:Tothepropertyofincompletependingdataintheincompleteinformationsystem(IIS),akindofknowledgeacquiring
methodforIISispresentedbasedontheroughsettheoryandtheequivalenceclassconcept.Usingthealgorithm,notonlysomecertainorpossiblerulescanbeeasilyextractedfromtheincompletedata,butalsotheunknownattributeeigenvalueestimattionproblemcanberesolved.Thevalidityandpracticabilityofthealgorithmisproven,andtheacquiredknowledgeoftheinformationsystemisshownthroughapracticalexample.Thealgorithmisalsovalidityintheconstructionoftheexpertsystemknowledgebase.Keywords:incompleteinformation;
roughset;equivalenceclassofroughset;knowledgeacquiring
1引言
不完备信息系统(IncompleteInformationSystem,简称IIS)是指由于受到数据采集能力、生产环境等因素影响而导致原有数据出现未知属性值的系统。粗糙集理论是由Pawlak在1982年提出的,作为一种刻划不完整性和不确定性的数学工具,能有效分析和处理不精确、不一致等各种不完整信息,并从中发现隐含的知识,揭示潜在的规律,这些优点使其成为数据库和机器学习研究领域的热[12]
点。在专家系统领域应用的例子有:基于不完整信息推理,基于知识的化简,数据挖掘及规则发现等。这些方法是以粗糙集理论的约简概念为基础实现对知识库的精简和重构,处理不完整数据集有困难。因此本文从粗糙集等价类的概念出发,提出了基于粗糙集理论的不完整数据集知识获取方法,可以有效地应用于复杂工业过程的专家系统知识库建立,尤其是信息不完备的复杂工业过程的知识库建立。
本文主要做了如下几个方面的工作:
提出不完备信息系统的概念,并结合密闭鼓风炉的实际运行情况给出悬料不完备数据集。 提出基于不完备信息系统的粗糙集等价类的概念,并分析数据集的不完备下近似和上近似,以推导出确定的和不确定的信息并归纳出确定合理的规则。!给出知识获取算法,利用该算法计算出不完整下近似并尝试估计未知特征值。∀通过一实例,证明该算法的正确性和有效性。
2不完备信息系统
1)不完备信息系统的定义
定义1设不完备信息系统S=(U,AT,V,f),其中,U是一个对象的非空有限集合,AT是非空有限的属性集合;对于a#AT,有a:U∃Va,其中,Va是属性a的值域。如果至少有一个属性A#AT使得Va含有空值,则称S为一个不完备信息系统,并用%*&表示空值。属性值域集合V=∋a#ATVa;f为信息函数,对于a#AT,x#U,
收稿日期:20090520;收修定稿日期:20090623
基金项目:湖南省自然科学基金资助项目(09JJ3129);湖南省科技计划基金资助项目(2009GK2002)
作者简介:王莉(1978),女,湖北武穴人,讲师,研究生,主要从事工业过程系统的智能化研究、粗糙集理论、数据挖掘等方面的
教学与科研工作。
第6期王莉等:基于粗糙集的不完备信息系统的知识获取有f(x,a)#Va。
一般而言,对于未知属性值的理解有两种,一种是认为所有的未知属性值仅仅是被遗漏的,但又是确实存在的,另一种则认为未知属性值是已丢失的。对于前一种情况,Kryszkiewicz构建了满足自反和对称性的容差关系进行系统建模,而后一种情况,由Stefanowski等人构建了非对称相似关系,并
[3]
建立了相似集的概念。
定义2在S中,对于A AT,由A决定的容差关系记为T(A)={(x,y)#U(U)a#A,f(x,a)=f(y,a)∗f(x,a)=*,f(y,a)=*。对x
A
#U,x的容差类可以记为T(x)={y#U)(x,y)#
A
T(A)},即T(x)是所有与x具有容差关系T(A)的对象的集合。
2)资料获取本文研究的密闭鼓风炉是一个封闭的空间,冶金化学反应在里面激烈进行,内部反应很大程度上处于未知状态,给数据检测带来困难,使得熔炼过程得到的参数不多。根据现场调研,获得的密闭鼓风炉悬料的发生情况为包含了7
(1)(2)
个训练事例的完整数据集:U={Obj,Obj,+,(7)
Obj},3种属性:A={热风风压(SP),主风口风量(MC),每小时下料批数(MT)},1个类集悬料(HM)。属性有3种特征值:{低(L),正常(N),高(H)};类集3种特征值为:{不发生(L),可能发生(N),一定发生(H)},见表1。
表1不完整数据集Table1Incompletedata
事例Obj(1)Obj(2)Obj(3)Obj(4)Obj(5)Obj(6)Obj(7)Obj(8)Obj(9)
SPHHLN*LN*H
MCLNHNLL*LL
MTL*LHNHHNL
HMHNLLNLLNN
(5)
(8)
(4)
/783/
(7)
(Obj,u)(Obj,u)},{(Obj,c)(Obj,c)
(5)(8)
(Obj,u)(Obj,u)}}
同理,MC与MT的不完整元素集合表示如下:
(3)(7)
U/{MC}={{(Obj,c)(Obj,u)},(1)(5)(6)(8)
{(Obj,c)(Obj,c)(Obj,c)(Obj,c)
(9)(7)(2)(4)
(Obj,c)(Obj,u)},{(Obj,c)(Obj,c)
(7)
(Obj,u)}}
(4)(6)(7)
U/{MT}={{(Obj,c)(Obj,c)(Obj,c)(2)(1)(3)(9)
(Obj,u)},{(Obj,c)(Obj,c)(Obj,c)
(2)(5)(8)(2)
(Obj,u)},{(Obj,c)(Obj,c)(Obj,u)}}
粗糙集理论利用集合的上近似和下近似概念对数据进行分析。
令X为域U的任意子集,B为属性集合A的任意子集,B关于X的下近似和上近似分别表示为:
*
B*(X)和B(X),定义如下:
B*(X)={(Obj,symbol)|1,i,n,Objc(i)(i)
X,Bk(Obj) X,1,k,|B(Obj)|}
B
*
(i)
(i)
(i)
#
c
(X)={(Obj,symbol
c
(i)
(i)(i)
)|1,i,n,Bk
(i)
其中,%*&表示属性的未知特征值。
3基于不完备信息系统的粗糙集等价类定义
由于SP,MC和MT有3种特征值:{H,N,L},因此每个属性由3个不完整等价类构成。
用c和u表示事例的合适的不完整等价关系。(Obj,u)表示未知特征值关于SP的每一个不完整等价类。
则SP的不完整元素集合如下:
(1)(2)(9)
U/{SP}={{(Obj,c)(Obj,c)(Obj,c)(5)(8)(3)(6)
(Obj,u)(Obj,u)},{(Obj,c)(Obj,c)
(5)
(Obj)−X.,Bk(Obj)!X,1,k,|B(Obj)|}
由上面得出训练事例可以存在不止一个属性的不完整等价类。
(7)
例如,MC的3个不完整等价类均含有Obj,
(7)(7)
那么,用MC(Obj)表示含有Obj的不完整等价类,则有:
(7)(3)(7)
MC(Obj)={{(Obj,c)(Obj,u)},(1)(5)(6)(8)
{(Obj,c)(Obj,c)(Obj,c)(Obj,c)
(9)(7)(2)(4)
(Obj,c)(Obj,u)},{(Obj,c)(Obj,c)
(7)
(Obj,u)}}
c(7)(7)
MC1(Obj)表示MC(Obj)中第一个不完整
(3)
等价类确定部分,即(Obj,c)。
找到下近似和上近似后,粗糙集理论就可以从训练事例中推导出确定的和不确定的信息并归纳出确定合理的规则。
(2)(5)(8)(9)
设X={Obj,Obj,Obj,Obj},因为:U/{SP}中不存在确定部分完全属于X元素的不完整等价类,则SP关于X的不完整下近似为SP*(X)=。
SP关于X的不完整上近似为*(1)(2)(9)
SP(X)={(Obj,c)(Obj,c)(Obj,c)}同理,可以推导出MC和MT的不完整下近似与上近似。
(i)
4基于粗糙集的知识获取方法
如前所述,每一个训练事例可以表示为(Obj,symbol),其中,symbol可能是确定的(c)或不定的(u)。如果事例的某一属性含有未知特征值,首先将其放入该属性的每一个不完整等价类中;然后利用算法计算出不完整下近似并尝试估计未知特征
/784/控制工程第16卷
值。如果某一不确定事例在某一不完整下近似中存在惟一的不完整等价类,则其未知特征值即可表示为等价类的值,symbol根据估计的结果变为c;否则,必须等到属性的不完整下近似计算完以后才能对未知特征值进行估计
[45]
5实例分析
由不完备数据集表1经过算法处理,在进行到Step14后结果,见表2。
表2修改后的数据集Table2Reviseddata
事例Obj(1)Obj(2)Obj(3)Obj(4)Obj(5)Obj(6)Obj(7)Obj(8)Obj(9)
SPHHLNHLNHH
MCLNHNLLNLL
MTLNLHNHHNL
HMHNLLNLLNN
。
学习算法详细步骤如下:
Step1根据类标记将事例集合划分为不相交的子集。事例集合属于类Cl表示为Xl。
Step2找出单个属性的不完整元素集合。如果Obj关于属性Aj有未知特征值,(Obj,u)表示Aj的不完整等价类。
Step3初始化置q=1,q为统计当前被用于
不完整下近似的属性的数。
Step4对于类Xl,计算具有q个属性的子集B的不完整下近似。
Step5对于不确定的事例Obj在不完整下近似中按以下步骤处理:
1)令Obj中的未知特征值为属性值vB,则vB
的不完整等价类中的(Obj,u)替换为(Obj,c),并且从其他属性值的不完整等价类中除去(Obj,u)。
2)若Obj存在多个的属性子集B在下近似中的不完整等价类,必须等其他属性决定未知特征值以后才能估计出未知特征值。
Step6置q=q+1,重复Step4~Step6直到q>m(m为每个事例具有的属性个数)。
Step7若某一事例Obj在某一不完整下近似中仍然存在多个不完整等价类,则在不完整等价类
k(i)
中寻找具有确定事例最大数的属性值vB,设Obj中的未知特征值为vB,在vB的不完整等价类中,(Obj,u)替换为(Obj,c),并且从其他属性值的不完整等价类中除去(Obj,u)。
Step8从每个子集B的下近似中得出确定的规则,除去条件部分比其他确定规则更详细的确定规则。
Step9重置q=1,q为统计当前被用于不完整上近似的属性的数。
Step10对于类Xl,计算具有q个属性的子集B的不完整上近似。
Step11~Step14对于不确定的事例Obj在不完整上近似中的处理办法与Step5~Step8类似。
Step15对于类Xl,计算不完整等价类在上近似中的可能度:
c(i)c(i)c(i)
p(Bk(Obj))=|Bk(Obj)−Xl|/Bk(Obj)(1)
Step16输出确定规则和可能规则。
(i)
(i)
(i)
(i)k
k(i)
(i)
(i)
(i)
(i)
(i)
k
k
(i)
(i)
(i)
算法执行完毕后,可以得到简化的确定决策规则为
(MT,N)∃(HM,N),(SP,N)0(MC,N)0(MT,H)∃(HM,L),(SP,L)0(MC,L)0(MT,H)∃(HM,L),(SP,L)0(MC,H)0(MT,L)∃(HM,L)
可能规则为
(SP,H)∃(HM,H),(MC,L)∃(HM,H),(MT,L)∃(HM,H)
(SP,H)∃(HM,N),(MC,N)∃(HM,N),(MT,L)∃(HM,N)
(MC,N)∃(HM,L),(MC,L)∃(HM,L),(MT,L)∃(HM,L),(SP,H)0(MC,L)0(MT,L)∃(HM,H),(SP,H)0(MC,L)0(MT,L)∃(HM,N)
可以看出,获取的规则比较准确地涵盖了悬料的可能发生情况,使得诊断系统在出现故障或不合理生产条件下就可以采取相应措施,有效避免了更加严重的情况发生。
6结语
对于从不完备信息系统中含有未知特征值的不完整数据集中提取规则要比完备完整数据集中提取规则要复杂的多。本文利用粗糙集原理中的等价类概念,依据判别准则将训练事例划分为下近似和上近似两类,并通过基于粗糙集的知识获取方法从不完整下近似和上近似中不仅可以提取规则,并且能够解决在学习过程中对训练事例属性未知特征值的估计问题。
最后的仿真结果表明通过该方法获取的规则能够准确有效地反映出实际状况,可以应用于复杂工业过程的专家系统知识库的建立中。
(下转第788页)
/788/控制工程第17卷
图3模糊控制Fig∀3Fuzzycontrol图4PID控制Fig∀4PIDcontrol图5模糊神经网络控制
Fig∀5Fuzzyneuralnetworkcontrol
由图3~图5比较得,模糊神经网络自适应控
制比模糊控制和传统PID控制有明显的优越性,它能定性或模糊的表达经验知识,又具有强学习能力。通过自适应算法在线修正网络参数,使其具有更快的学习收敛速度。对于复杂的转台伺服控制系统,该控制算法也能取得良好的动态性与稳定性。
[2]
[3]
7结语
从仿真结果可以看出,模糊神经网络自适应控制算法具有很好的控制响应和跟踪精度。该仿真转台现已成功应用于自动飞行控制系统与惯性导航系统模拟试验,并在自动飞行控制品质和降低惯导元件误差方面取得了良好的效果。参考文献(References):
[1]李磊,朱齐丹,高双.动态模糊神经网络在并联平台控制中的
[4]
[5]
[6]
应用[J].系统仿真学报,2009,21(8):23382340.(LiLe,iZhuQidan,GaoShuang.Dynamicfuzzyneuralnetworksappliedinparallelplatformcontrol[J].JournalofSystemSimulation,2009,21(8):23382340.)
林雄.自适应模糊神经网络研究[J].微计算机信息,2003,19(3):1617.(LinXiong.Studiesonaadaptablefuzzyneuralnetworkarchitecture[J].MicrocomputerInformation,2003,19(3):1617.)
王卫红,吴云洁,王宗学,等.仿真转台计算机控制系统设计与实现[J].计算机仿真,2005,22(2):9395.(WangWeihong,WuYunjie,WangZongxue,etal.Designandrealizationofsimulatorscomputercontrolsystem[J].ComputerSimulation,2005,22(2):9395.)XieMJ,WangZQ,WangLM.Applicationresearchofintelligentalgorithminelectricdrivenflightsimulationturntable[C].Guangzhou:2008ISECSInternationalColloquiumonComputing,Communication,Contro,landManagement,2008.XieMJ,WangLM,WangZQ.ImplementationandstabilityanalysisofthefuzzycontrollerbasedonelectricdrivenSimulationTurntable[C].Guangzhou:ISECSInternationalColloquium,2008.徐春梅.模糊神经网络补偿的伺服系统二次型最优控制[J].控制工程,2009,16(3):264267.(XuChume.iQuadraticoptimalcontrolbasedonfuzzyneuralnetworkscompensationforservosystem[J].neuralnetworkscompensationforservosystem[J].ControlengineeningofChina,2009,16(3):264267.)
(上接第781页)
5结语
本文将模型参考自适应控制和神经网络有机结合起来,设计了一种改进型RBF神经网络,并运用于飞控系统的容错控制。
结果表明改进的神经网络结构提高了网络的收敛速度和泛化能力,易于在线实时控制,对干扰具有较强的鲁棒性,实现了快速容错控制的目的,该方法是有效的和可行的。参考文献(References):
[1]姜斌,冒泽慧,杨浩.控制系统的故障诊断与故障调节[M].北
京:国防工业出版社,2009.(JiangBin,MaoZhehu,iYangHao.Faultdiagnosisandfaultaccommodationforcontrolsystems[M].Beijing:NationalDefenseIndustryPress,2009.)
[2]陈新海,李言俊,周军.自适应控制及应用[M].西安:西北工业
大学出版社,2003.(ChenXinha,iLiYanjun,ZhouJun.Adaptivecontrolandapplication[M].Xia'n:NorthwesternPolytechnicUni
versityPress,2003.)
[3]刘旭.大型飞机神经网络重构控制[J].控制理论与应用,
2007,26(7):46.(LiuXu.Neuralnetworkreconfigurablecontrolforcivilaircraft[J].ControlTheoryandApplications,2007,26(7):46.)
[4]LiuXX,WuY,ShiJP.Adaptivefaulttolerantflightcontrolsys
temdesignusingneuralnetworks[C].Chengdu,China:IEEEInternationalConferenceonIndustrialTechnology,2008.
[5]杨凌,刘进军,金强.基于改进RBF网络的乙烯纯度软测量建
模方法[J].微计算机信息,2008,24(103):158159.(YangLing,LiuJinjun,JinQiang.AsoftsensingmodelingapproachtoethylenepuritybasedonimprovedRBFneuralnetwork[J].MicrocomputerInformation,2008,24(103):158159.)
[6]谭文,王耀南,刘祖润,等.混沌系统的RBF神经网络非线性补
偿控制[J].控制理论与应用,2003,20(6):951954.(TanWen,WangYaonan,LiuZurun,etal.ControllingchaoticsystembyRBFneuralnetworksnonlinearcompensator[J].ControlTheoryandApplications,2003,20(6):951954.)
[7]胡寿松,周川.基于神经网络的模型跟随鲁棒自适应控制[J].
自动化学报,2000,26(5):623629.(HuShousong,ZhouChuan.Modelfollowingrobustadaptivecontrolbasedonneuralnetworks[J].ActaAutomaticaSinica,2000,26(5):623629.)[8]SzsziI,GanguliS.ApplicationofFDItoanonlinearBoeing747
aircraft[C].Lisbon:Proceedingsofthe10thMediterraneanConferenceonControlandAutomationMED2002,2002.(4):7476,222.)
[4]孙成敏,刘大有,孙舒杨.面向不完备信息系统的粗糙集方法研
究[J].小型微型计算机系统,2007,28(10):18691873.(SunChengmin,LiuDayou,SunShuyang.Roughsetmethodstudiesinincompleteinformationsystem[J].JournalofChineseComputerSystems,2007,28(10):18691873.)
[5]张文修,仇国芳.基于粗糙集的不确定决策[M].北京:清华大
学出版社,2005.(ZhangWenxiu,QiuGuofang.Decisionunderuncertaintybasedonroughset[M].Beijing:TsinghuaUniversityPress,2005.)
(上接第784页)参考文献(References):
[1]PawlakZ.Ronghsets:Theoreticalaspectsofreasoningaboutdata
[M].Dordrecht:KluwerAcademicPublishers,1991.
[2]PawlakZ.Ronghsettheoryanditsapplicationtodataanalysis[J].
CyberneticsandSystems,1998,29(7):661688(28).
[3]刘富春.基于集对分析的变精度粗糙集模型[J].计算机工程
与应用,2005,10(4):7476,222.(LiuFuchun.Variableprecisionroughsetmodelbasedonsetpairanalysis[J].CEA,2005,10
因篇幅问题不能全部显示,请点此查看更多更全内容