您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页基于代表熵的基因表达数据聚类分析方法

基于代表熵的基因表达数据聚类分析方法

来源:飒榕旅游知识分享网
维普资讯 http://www.cqvip.com c0 “ Enginee and Applications计算机工程与应用 基于代表熵的基因表达数据聚类分析方法 陆 媛,杨慧中 . LU Yuan,YANG Hui—zhong 江南大学通信与控制工程学院,江苏无锡214122 Scho0l of Communication&Control Engineering,Jiangnan University,Wuxi,Jiangsu 214122,China E—mail:ly1983.cn@163.corn LU Yuan,YANG Hui—zhong.Clustering analysis methods of gene expression data based on representative entropy・ Computer Engineering and Applications,2008,44(27):151—153・ Abstract: Because gene expression data is high dimensions and small samples,especially the less priori knowledge,a two—way clustering algorithm based on the representative entropy is proposed,which is combined with the advantages of Self Organizing f ature Map(SOM)neural network.First,the clustering of genes is realized through the SOM network,and characteristic genes are se1ected according to the fluctuation coefficient.Then the quality of gene clustering is decided by the value of representative en— tropy.Finally,Self Organizing Feature Map algorithm is employed to classiifcation of samples.This process is applied to two pub— lished data sets 0f gene expression.The experiment results show that the algorithm can reduce the feature space dimensions and improve the accuracy of clustering. Key words:representative entropy;fluctuation coefficient;Self Organizing feature Map(SOM)algorithm;gene expression data 摘要:针对基因表达数据样本少,维数高的特点,尤其是在样本分型缺乏先验知识的情况下,结合自组织特征映射的优点提出了 基于代表熵的双向聚类算法。该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。然后根据代 表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。最后采用FCM(Fuzzy C Means)聚类算法对挑选出的特征基因集进 行样本分型。将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。 笑键词:代表熵;波动系数;自组织特征映射网络算法;基因表达数据 DOI:10.3778(j.issn.1002—8331.2008.27.048 文章编号:1002—8331(2008)27—0151—03 文献标识码:A 中图分类号:TP3l1 1前言 表基因对组织样本进行判别。根据生物学知识可知,具有相同 基因表达数据具有很高的基因维数和相对较少的样本数, 功能的基因可能有相似的表达模式,因此对基因聚类,将 通常是几千甚至上万个基因而只有几十个样本。在对组织样本 功能相关的基因按表达模式的相似性归类[21,有助于对未知功 聚类时,如果不对基因数据进行降维处理,而直接进行样本聚 能的基因进行研究。 类,将不会得到有意义的结果。这是因为大多数的无关基因数 本文采用双向聚类算法模型即先从特征/基因方向聚类, 据淹没了数量很小的对疾病分型有用的基因数据,所以在对组 挑选出特征基因后再对样本聚类。根据代表熵的大小判断基因 织样本聚类之前先要进行降维处理。目前对高维数据进行降维 聚类质量的好坏,引入波动系数挑选类内代表基因。将该算法 处理的方法较多,其中有主元分析,粗糙集属性约减,小波变换 应用于基因表达数据集,实验结果表明,在缺乏先验知识的情 及特征提取…等。较为常用的主元分析法是一种无导师型线性 况下本文的算法提高了样本分型的准确度。 分析方法,它将原始特征空间投影到新的特征空间,但新的特 征只是原特征的线性组合,不再具有生物学意义。而特征提取 2双向聚类算法模型 是在原始的特征空间中挑选有助于样本分型的代表基因,因而 本文采用的双向聚类算法是分别从基因和样本两个方向 保留了特征的生物学意义。 聚类。基因聚类可以挑选出特征基因,样本聚类用来对疾病分 一般的特征提取都要有先验知识作指导,即在已知一定的 型。其算法流程如图1所示。首先是对基因数据集进行预处理, 样本分类情况下,挑选对分类贡献较大的特征,这对于临床医 包括滤去在样本中无变化的基因及表达值的规一化处理。接着 学中癌症的诊断有一定的局限性。由于大多数未知类型的疾病 是采用SOM网络从基因方向上聚类,将表达模式相近的基因 缺少相关知识,所以需要一种方法能够在无指导情况下挑选代 归为一类。再从每一个簇中挑选该类的代表基因,构成总特征 基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60674029)。 作者简介:陆媛(1983一),硕士生,主要研究方向:数据挖掘、聚类算法;杨慧eo(1955一),教授,博士生导师,主要研究方向:工业过程建模与优化控 制及相关理论与技术的研究。 ’ 收稿日期:2007—11-13 修回日期:2008—02—29 维普资讯 http://www.cqvip.com 152 2008,44(27) Computer Engineering and Applications计算机工程与应用 图1双向聚类流程图 基因集。考虑到SOM聚类算法需要预先确定输出层神经元的 数目,引入代表熵判断最佳的神经元数。最后运用FCM聚类算 法对挑选出的特征集进行样本分型。 、 2.1基因聚类——SoM算法 在无先验知识的情况下对基因聚类,需要选择一种无监督 的聚类算法,而由Kohonen教授于1982年提出的自组织特征 映射(Self Organizing feature Map,SOM)网络能模拟大脑神经 系统自组织特征映射的功能,能无监督地进行自组织学习,不 需要预先确定聚类数目,网络通过自身训练,自动对输入模式 进行分类。自组织映射网络的基本思想是网络竞争层中的各神 经元通过竞争来获取对输入模式的响应机会,最后仅剩一个神 经元成为竞争的胜利者,并对那些与获胜神经元有关的各连接 权朝着更有利于它竞争的方向调整。 SOM网络的一个典型特性就是可以在一维或二维的处理 单元阵列上,形成输入信号的特征拓扑分布,因此SOM网络具 有抽取输入信号模式特征的能力『31。 2.2代表基因的挑选 通过基因聚类,可以将表达模式相近的基因聚为同一个 簇,再从每个簇中挑选出该簇的代表基因作为新的特征基因。 挑选的这个代表基因要最有利于后面组织样本的分型,而将那 些对样本分型贡献较少的基因滤除,从而达到降维的目的。 本文引进波动系数 壤征基因对分型贡献的大小。定义变 量D 表示第i个基因的方差,变量筋表示第i个基因在第 个 组织样本下的表达值,g 表示第i个基因在n个样本中的均 二 值,则:D =(∑(毋一g,)2/(n一1)) ,g = 。令变量F表示波 动系数,每个基因的波动系数定义为F=D]gi。 波动系数越大则表明该基因在组织样本中的波动越大,越 有利于样本分型。波动系数越小则表示基因在组织样本中的变 化很小,对样本分型的贡献也越小。因此可以根据每个簇中基 因的波动系数来挑选簇的代表基因,即找出波动系数最大的基因。 2.3代表熵 SOM网络虽然能够对基因数据进行无监督聚类而无需预 先确定聚类个数,但是神经元的个数是需要在网络进行训绣;之 前确定。数目过多,可能会将同类的基因归为不同的簇,增加了 基因的类数;而数目过少的话可能会造成类的划分不明确,从 而遗漏对分型起重要作用的特征基因。因此神经元数目的确定 对后续特征基因的选择及特征基因的个数起着非常重要的作用。 神经元数目的确定需要考虑到基因数据的大小,本文所采 用的微阵列数据都是基因数目在7 000左右的,因此选择的神 经元的个数要在200个左右[21。但是对于具体的数据集还是需 要确定一个具体的数值使得挑选出的特征基因对样本的分型 结果最好。在此,引入代表熵概念 。定义A,( =l,…,d)是包含 d个特征的协方差矩阵的特征值。 定义变量A产— LL,则A 具有概率属性,且有0≤A,≤1及 ∑A =l d d Aj=1。代表熵定义为: = A ̄logAj。 ,=l j=l 当所有的特征值除了一个值其它均为0时, 达到最小, 即所有的信息分布是在一个方向上的,具有相似性。当所有的 特征值都相等时, 达到最大,也就是所有的特征信息是完全 分散的,特征的不确定性最大。利用代表熵的这一特性可以来 判断聚类质量的好坏,即被划分为同一类的基因代表熵越低, 则一致性越好,从而挑选的单个特征基因越具有代表性。而最 终挑选出的总的特征基因组其代表熵值越高,冗余性越小。 2.4样本聚类——FCM算法 FCM算法是一种基于目标函数的方法,它把聚类归结为 一个带约束的非线性规划问题,通过优化求解获得数据集的模 糊划分和聚类。其基本思想是通过反复修改聚类中心 和隶 属度矩阵u来实现动态的迭代聚类,使得被划分到同一簇的 对象之间相似度最大,而不同簇之间的相似度最小。本文采用 模糊C均值(FCM)聚类算法对挑选出的特征基因构成的数据 集进行样本聚类。 3双向聚类算法描述 通过上述双向聚类模型的叙述,本文对数据预处理后的所 有基因集的处理可分为以下几步进行: 步骤1网络初始化。确定SOM网络初始的神经元数目, 设置迭代次数和学习率。 步骤2 SOM基因聚类。将基因作为输入量,将表达模式 相近的基因归为一类。 步骤3计算波动系数F。分别对每个类簇中的基因计算F 值,挑出每簇中F值最大的基因作为该簇的代表基因。 步骤4计算代表熵 。计算每个基因簇的代表熵值 及 这些簇的代表熵的平均值 ,并计算挑选出的总的特征基因组 的代表熵 s。 步骤5记录每次神经元变动时的H 和日:,若日 和日 同 时满足最小和较大时,此时神经元数目即是SOM聚类的最优 神经元个数,执行步骤6。否则改变网络的神经元个数(保证神 经元的个数在200个左右变动),返回步骤2。 步骤6样本聚类。根据挑选出的特征基因构成的新数据 集进行FCM聚类得到样本分型结果。 4实验分析 4.1实验数据 (1)急性白血病基因表达谱(1eukaemia)数据集【 1 维普资讯 http://www.cqvip.com 陆媛,杨慧中:基于代表熵的基因表达数据聚类分析方法 该数据集共含有38个急性白血病样本,每个样本均含有 7 129个基凶的表达谱数据。其中,有27个样本被诊断为急性 淋巴性白血病(ALL),1 1个被诊断为急性骨髓性白血病(AML)。 (2)Notte丌T1an Carcinoma数据集 该数据集是来源于Nottemlan等人Cancer Research的 小降序排列,发现白血病数据集的特征基因的波动系数是在 0-6范围内,而值大于2的有77个。从图2可以看出大部分值 集中在2.5~3.5之间。利用这77个特征基因进行FCM聚类,聚 类准确率达到92.1%。对于Nottetman Carcinoma数据集经过 规一化处理,其特征基因的波动系数值是在(0,5)之间,其中大 于O.8的有48个。由图3可以看出这些值大部分集中在0-1.5 Careinoma Data。该数据集包含36个组织样本,每个样本包含 7 457个基因的表达数据。其中18个样本为癌症组织,l8个样 本为正常组织。 之间,利用这48个特征基因进行FCM聚类,无错分样本,准确 率达到了100%。表明这48个基因已经完全包含了对样本分型 4.2实验结果与分析 有贡献作用的基因。 .8 9 挪 5 7 2 7 根据本文提出的双向聚类模型算法,采用Matlab对数据 处理。首先是对Nottennan Carcinoma Data通过如下公式进行 归一化处理: : -I11l ,其中, 和X 分别是基因在样本中 nlax—rilln 的原始值和标准化后的值;min和max分别是基凶在样本中的 最小值和最大值。 然后进行SOM聚类,迭代次数选为100,因为网络神经元 的个数还不确定,只有一个大概范围是200,所以首先选择一 特征基因个数 个初值(20xl0)进行基因聚类,共选择6组数据,并记录每次数据 图2自血病数据特征基 图3 Notterman Carcinoma 的日 和 。对白血病和Carcinoma Data数据集计算结果如表1。 因波动系数 数据特征基因波动系数 表l基因聚类的代表熵 5结论 数据集 Notterman Carcinoma 聚类分析技术是目前基因表达研究的主要计算技术之一。 神经元个数 H R H R 它能将功能相关的基因按表达谱的相似程度归纳成共同表达 22x8 O_8l6 06 1.046 7 l l25 0 类别,有助于对基因功能,基因,细胞过程及细胞亚型等进 20x12 0.730 73 1.070 9 1.4l9 2 行综合研究。本文正是运用了聚类分析技术,针对微阵列数据 20x1O 0 745 58 1.049 8 1 422 3 的特点提出了基于代表熵的双向聚类算法。该算法从基因和样 l8xl2 0.751 19 1.032 8 l 413 9 本两个方向对数据集聚类。基因聚类中,聚类在一起的是在多 l8x1O 0.80l 40 1.079 2 1.417 6 个样本中具有相似表达模式的基因。根据波动系数从每个基因 16x14 0.762 48 l 062 0 1.4l5 3 簇中挑选出该簇的代表基因构成新的数据集再进行样本聚类。 从表1可以看出,对于白血病基因表达数据集,当神经元 实验结果表明,利用该算法得出的结果与实际基本相符,且聚 类准确率高于在同方向上单独使用一种聚类算法。 个数选择为20x12时, 最小的同时日 相对较大,表明此时 每个基因簇的相似度较高,而总的特征集代表性较高,包含的 参考文献: 冗余性较低,有利于样本分型。对于Carcinoma数据集,当神经 [1]Te Ming—huang,Kecman V.Gene extraction for cancer diagnosis by 元个数取为18x12时, 最小且日 相对较大,最有利于样本 suppo ̄vector machines—an improvement[J].Artical Intelligence in 分型。 Medicine,2005,35:185—194. SOM聚类后,根据最佳神经元数目分别可得白血病数据 [2]万江.基于SOM基因聚类的基凶数据组织样本聚类[D].西安:西安 集的特征基因为224个,Notterman Carcinoma数据集的特征基 电子科技大学,2005. [3]飞思科技产品研发中心.神经网络理论与MATLAB7实现lM】.北京: 因为216个。这些特征基因虽然有一定的冗余,但是已经包含 电子工业出版社,2005. 了大部分对分型有益的基因,相对于原始数据集,其维数已经 【4]Alon U Broad patterns of gene expression revealed by clustering 大大降低。而且由表2样本聚类的结果可以看出,38个白血病 analysis of tunlor and normal colon tissues probed by oligonu— 样本聚为2类亚型时聚类准确率最高,此时只有1个样本被错 cleotide arrays[C]//Proe Natl Acad Sci,USA,1999,96(12):6745 ̄5750. 误划分到ALL类。36个Notterman Carcinoma样本划分为2类时, [5】阮晓钢,周淑娟.基于聚类的肿瘤亚型发现模型【JJ_控制工程,2007, 聚类结果也较单独采用SOM算法或是直接使用FCM算法的好。 14(2):122—124. 表2样本分型结果 [6]Mitra P,Majumder D D.Feature selection and gene clustering from gene expression data[CF/Proceedings of the 17th International Con— ference on Pattern on Recognition,2004:1051-4651. [7]Mitra P,Murthy C A,Pal S K.Unsupervised feature selection using feature similarity[J].IEEE Trans Pattern Analysis and Machine In— telligence,2002,24(3):301—3l2. [8】Golub T R,Slonim D K,Tamayo P,et a1.Molecular classiifeati0n of cancer:class discovery and class prediction by gene expression 对特征基因做进一步分析,将特征基因按照波动系数的大, monitoring[J].Science,1999,286(15):531-537. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务