1.⽣物信息学的主要研究开发内容
基因组包含了构成和维持⼀个⽣活有机体所必备的基本信息,由细胞内进⾏的多种分⼦⽣物学反应将这些信息转化为真正的⽣命现象。基因组的⼀部分编码蛋⽩质和RNA,其它部分这些⼤分⼦的表达。表达的蛋⽩质及RNA折叠成⾼度专⼀的三维结构,在体内的特定位置上实现其功能。这些过程的⼤量细节都是在分⼦⽣物学研究的实验室⾥揭⽰出来的,所形成的⼤量数据,存储于数据库中。⽣物信息学试图从这些数据中提取新的⽣物学信息和知识,是⼀门深深植根于全⾯深⼊的实验事实和数据的理论⽣物学。从⽬前⽣物信息学的研究情况来看,国际上公认的⽣物信息学的研究内容,⼤致包括以下⼏个⽅⾯:⽣物信息的收集、存储、管理与提供。包括建⽴国际基本⽣物信息库和⽣物信息传输的国际联⽹系统;建⽴⽣物信息数据质量的评估与检测系统;⽣物信息的在线服务;⽣物信息可视化和专家系统。
基因组序列信息的提取和分析。包括基因的发现与鉴定,如利⽤国际EST 数据库(dbEST) 和各⾃实验室测定的相应数据,经过⼤规模并⾏计算发现新基因和新SNPs以及各种功能位点;基因组中⾮编码区的信息结构分析,提出理论模型,阐明该区域的重要⽣物学功能;进⾏模式⽣物完整基因组的信息结构分析和⽐较研究;利⽤⽣物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与⽣物进化关系等⽣物学的重⼤问题。
功能基因组相关信息分析。包括与⼤规模基因表达谱分析相关的算法、软件研究,基因表达⽹络的研究;与基因组信息相关的核酸、蛋⽩质空间结构的预测和模拟,以及蛋⽩质功能预测的研究。
⽣物⼤分⼦结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分⼦设计;蛋⽩质空间结构模拟和分⼦设计;具有不同功能域的复合蛋⽩质以及连接肽的设计;⽣物活性分⼦的电⼦结构计算和设计;纳⽶⽣物材料的模拟与设计;基于酶和功能蛋⽩质结构、细胞表⾯受体结构的药物设计;基于DNA结构的药物设计等。
⽣物信息分析的技术与⽅法研究。包括发展有效的能⽀持⼤尺度作图与测序需要的软件、数据库以及若⼲数据库⼯具,诸如电⼦⽹络等远程通讯⼯具;改进现有的理论分析⽅法,如统计⽅法、模式识别⽅法、隐马尔科夫过程⽅法、分维⽅法、神经⽹络⽅法、复杂性分析⽅法、密码学⽅法、多序列⽐较⽅法等;创建⼀切适⽤于基因组信息分析的新⽅法、新技术。包括引⼊复杂系统分析技术、信息系统分析技术等;建⽴严格的多序列⽐较⽅法;发展与应⽤密码学⽅法以及其他算法和分析技术,⽤于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息⽹络的研究⽅法等;发展⽣物⼤分⼦空间结构模拟、电⼦结构模拟和药物设计的新⽅法与新技术。
应⽤与发展研究。汇集与疾病相关的⼈类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建⽴与动植物良种繁育相关的数据库以及与⼤分⼦设计和药物设计相关的数据库。
总的来说近期⽣物信息学将在以下⼏⽅⾯迅速发展:⼤规模基因组测序中的信息分析;新基因和新SNPs(单核苷酸多态性)的发现与鉴定;完整的⽐较基因组研究;⼤规模基因功能表达谱的分析;⽣物⼤分⼦的结构模拟与药物设计。⽽其长远任务是⾮编码区信息结构分析和遗传密码起源与⽣物进化的研究。读懂⼈类基因组,发现⼈类遗传语⾔的根本规律,从⽽阐明若⼲⽣物学中的重⼤⾃然哲学问题,像⽣命的起源与进化等。2.⼈类基因组计划的主要任务
1990年,美国国会批准美国的“⼈类基因组计划”在10⽉1⽇正式启动。其总体规划是准备在15年内⾄少投⼊30亿美元,进⾏对⼈类的基因组分析。1993年,美国对这⼀计划做了修订,主要内容包括:⼈类基因组的基因图的构建与序列分析;⼈类基因的鉴定;基因组研究技术的建⽴;⼈类基因组研究的模式⽣物;信息系统的建⽴。这其中的最重要的任务就是⼈类基因组的基因图构建与序列分析。最重要的是这样⼏张图:遗传图、物理图、序列图,最优先考虑、必须保质保量完成的是DNA序列图。根据我国的实际情况,中国的⼈类基因组计划初期⽬标主要是充分利⽤我国丰富的遗传资源,进⾏基因多样性和疾病基因识别的研究。
完成四张图:物理图、转录图、遗传图、序列图
⼈类基因组计划”是解读⼈的基因组上的所有基因,共分析24个染⾊体DNA分⼦中的四种碱基对。30亿个碱基对是⼀个很长的序列,为了更好地搞清这个长序列,需要有其他辅助⼯作配合。在“⼈类基因组计划”中,分为两个阶段:DNA 序列图以前的计划和DNA序列图计划。序列图以前的计划包括物理图、转录图、遗传图。3系统树的构建主要有三种⽅法:
距离矩阵法(distancematrixmethod)是根据每对物种之间的距离,其计算⼀般很直接,所⽣成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。; T. x* e, k0 g$
最⼤简约(maximumparsimony)法较少涉及遗传假设,它通过寻求物种间最⼩的变更数来完成的。2 j: j* c% f% K5 a3 m6 w对于模型的巨⼤依赖性是最⼤似然(maximumlikelihood)法的特征,该⽅法在计算上繁杂,但为统计推断提供了基础。 ]5 L1 T/I! F7 `
5 {* T- O4 g. a距离矩阵法
⾸先通过各个物种之间的⽐较,根据⼀定的假设(进化距离模型)推导得出分类群之间的进化距离,构建⼀个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。这⾥的遗传距离为所有成对实⽤分类单位(operational taxonomic
units,OTU)之间的距离。⽤这些距离对OUT进⾏表型意义的分类可借助于聚类分析(clustering),聚类过程可以看作是鉴别具有相近OUT类群的过程。
由进化距离构建进化树的⽅法很多,常⽤有如下⼏种:) V( q7 y% t' W% B
平均连接聚类法(UPGMA法):聚类的⽅法很多,包括序贯法(sequential)、聚合法(agglomerative)、分层法(hierarchical)和⾮重叠法(nonoverlapping)等。应⽤最⼴泛的是平均连接聚类法(average linkage clustering)或称为UPGMA法(应⽤算术平均数的⾮加权成组配对法,unweighted pair-group method using anarithmetic average)。该法将类间距离定义为两个类的成员所有成对距离的平均值,⼴泛⽤于距离矩阵。Nei等模拟了构建树的不同⽅法,发现当沿树上所有分枝的突变率相同时,UPGMA法⼀般能够得到较好的结果。但必须强调有关突变率相等(或⼏乎相等)的假设对于UPGMA的应⽤是重要的。另⼀些模型研究(如Kim和Burgman)已证实当各分枝的突变率不相等时,这⼀⽅法的结果不尽⼈意。当各分枝突变率相等时,认为分⼦钟(molecularclock)在起作⽤。
Fitch-Margoliash Method(FM法):UPGMA法包含这样的假定:沿着树的所有分枝突变率为常数。Fitch和Margoliash(1967)所发展的⽅法去除了这⼀假定。该法的应
⽤过程包括插⼊“丧失的”OUT作为后⾯OUT的共同祖先,并每次使分枝长度拟合于3个OTU组。
Margoliash担⼼他们的法则所得到的拓扑结构可能是不完全正确的,并建议考查其它的拓扑结构。可以采⽤Fitch和
Margoliash(1967)称之为“百分标准差”的⼀种拟合优度来⽐较不同的系统树,最佳系统树应具有最⼩的百分标准差。根据百分标准差选择系统树,其最佳系统树可能与由Fitch-Margoliash法则所得的不相同。当存在分⼦钟时,可以预期这⼀标准差的应⽤将给出类似于UPGMA⽅法的结果。如果不存在分⼦钟,因⽽在不同的世系(分枝)中的变更率是不同的,则Fitch-Margoliash标准就会⽐UPGMA好得多。通过选择不同的OUT作为初始配对单位,就可以选择其它的系统树进⾏考查。具有最低百分标准差的系统树即被认为是最佳的,并且这个标准是建⽴在应⽤Fitch- Margoliash算法的基础上的。FM算法的基本步骤:: r# |- G3 m; W$ ]
1、找出关系最近的序列对,如A和B$ n\" r& i& [ |' `9 n7 w& I
2、将剩余的序列作为⼀个简单复合序列,分别计算A、B到所有其他序列的距离的平均值,⽤这些值来计算A和B间的距离3、将A、B作为⼀个单⼀的复合序列AB,计算与每⼀个其他序列的距离,⽣成新的距离矩阵* \\/ P( s9 v5 _- {2 C4、确定下⼀对关系最近的序列,重复前⾯的步聚计算枝长5、从每个序列对开始,重复整个过程
6、对每个树计算每对序列间的预测距离,发现与原始数据最符合的树
Neighbor-JoiningMethod(NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou 和Nei(1987)提出。该⽅法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最⼩。相邻是指两个分类单位在某⼀⽆根分叉树中仅通过⼀个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建⽴⼀个相应的拓扑树。T3 g7 ?+ q\" p! N7 Y2 I$ h最⼤简约法
最⼤简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推⼴到分⼦序列的进化分析中。最⼤简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释⼀个过程的最好理论是所需假设数⽬最少的那⼀个。对所有可能的拓扑结构进⾏计算,并计算出所需替代数最⼩的那个拓扑结构,作为最优树。
Felsenstein指出,在试图使进化事件的次数最⼩时,简约法隐含地假定这类事件是不可能的。如果在进化时间范围内碱基变更的量较⼩,则简约法是很合理的,但对于存在⼤量变更的情形,随着所⽤资料的增加,简约法可能给出实际上更为错误的系统树。
最⼤简约法的优点:最⼤简约法不需要在处理核苷酸或者氨基酸替代的时候引⼊假设(替代模型)。此外,最⼤简约法对于分析某些特殊的分⼦数据如插⼊、缺失等序列有⽤。) q5 c1 v. @' P! V. |4 N% n
缺点:在分析的序列位点上没有回复突变或平⾏突变,且被检验的序列位点数很⼤的时候,最⼤简约法能够推导获得⼀个很好的进化树。然⽽在分析序列上存在较多的回复突变或平⾏突变,⽽被检验的序列位点数⼜⽐较少的时候,最⼤简约法可能会给出⼀个不合理的或者错误的进化树推导结果。
) {: t7 e( Y0 ?; l2最⼤似然法(ML)
最⼤似然法(maximum likelihood,ML)最早应⽤于系统发育分析是在对基因频率数据的分析上,后来基于分⼦序列的分析中也已经引⼊了最⼤似然法的分析⽅法。\" C) D; L7 J2 o( t( l
最⼤似然法分析中,选取⼀个特定的替代模型来分析给定的⼀组序列数据,使得获得的每⼀个拓扑结构的似然率都为最⼤值,然后再挑出其中似然率最⼤的拓扑结构作为最优树。在最⼤似然法的分析中,所考虑的参数并不是拓扑结构⽽是每个拓扑结构的枝长,并对似然率球最⼤值来估计枝长。最⼤似然法的建树过程是个很费时的过程,因为在分析过程中有很⼤的计算量,每个步骤都要考虑内部节点的所有可能性。: ~# z+ C3 p2 Y; o
最⼤似然法也是⼀个⽐较成熟的参数估计的统计学⽅法,具有很好的统计学理论基础,在当样本量很⼤的时候,似然法可以获得参数统计的最⼩⽅差。只要使⽤了⼀个合理的、正确的替代模型,最⼤似然法可以推导出⼀个很好的进化树结果。构建⽅法的选择* l1 S& 5 Q6 W& ]
⼀般情况,若有合适模型,ML的效果较好;近缘序列,⼀般使⽤MP(基于的假设少);远缘序列,⼀般使⽤NJ或ML。1 N.G v. F! U1 [
对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时会严重⼲扰进化树的构建;贝叶斯的⽅法则太慢。各种⽅法构建的系统进化树,(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯⽅法的准确性最⾼,其次是ML,然后再是MP。其实若序列有较⾼的相似性,各种⽅法都会得到不错的结果,模型间的差别也不⼤。% k4 K4C, z* T. a- F\" }8
对于NJ和ML两种⽅法,需要选择构建模型。对于核酸及蛋⽩质序列,两者模型的选择是不同的。蛋⽩质的序列,⼀般选择Poisson Correction(泊松修正)这⼀模型;⽽对于核酸序列,⼀般选择Kimura 2-parameter(Kimura-2参数)模型。! k. Z' ^+X8 _( k4 n1 b$ I+ h y
Bootstrap选项⼀般都要选择,当Bootstrap的值>70,⼀般都认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。' l5 u/ K2 h: Q# d+ x/ B9 N 对于进化树的构建,如果对理论的了解并不深⼊,则推荐使⽤缺省的参数,并启⽤Bootstrap检验。⼀般情况下,使⽤两种不同的⽅法构建进化树,如果得到的进化树基本⼀致,结果较为可靠.
4国际上权威的核酸序列数据库和所属机构。常⽤核酸序列数据库-常⽤核酸序列数据库
EMBL、GenBank和DDBJ是国际上三⼤主要核酸序列数据库。EMBL是由欧洲分⼦⽣物学实验室(European Molecular
Biology Laboratory)于1982年创建的,其名称也由此⽽来,⽬前由欧洲⽣物信息学研究所负责管理【Baker, 2000】。美国国家健康研究院(National Institurte of Health,简称NIH) 也于80年代初委托洛斯阿拉莫斯(Los Alamos)国家实验室建⽴
GenBank,后移交给国家⽣物技术信息中⼼NCBI,⾪属于NIH下设的国家医学图书馆(National Liabraty of Medicine,简称NLM)。DDBJ是DNA Data Base of Japan的简称,创建于1986年,由⽇本国家遗传学研究所负责管理。1988年,EMBL、GenBank 与DDBJ共同成⽴了国际核酸序列联合数据库中⼼,建⽴了合作关系。根据协议,这三个数据中⼼各⾃搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机⽹络每天都将新发现或更新过的数据进⾏交换,以保证这三个数据库序列信息的完整性。
5.国际上权威的有关蛋⽩质的三个数据库。蛋⽩质数据库
1. PIR和PSDPIR国际蛋⽩质序列数据库(PSD)是由蛋⽩质信息资源(PIR)、慕尼⿊蛋⽩质序列信息中⼼(MIPS)和⽇本国际蛋⽩质序列数据库(JIPID)共同维护的国际上最⼤的公共蛋⽩质序列数据库。这是⼀个全⾯的、经过注释的、⾮冗余的蛋⽩质序列数据库,包含超过142,000条蛋⽩质序列(⾄99年9⽉),其中包括来⾃⼏⼗个完整基因组的蛋⽩质序列。所有序列数据都经过整理,超过99%的序列已按蛋⽩质家族分类,⼀半以上还按蛋⽩质超家族进⾏了分类。PSD的注释中还包括对许多序列、结构、基因组和⽂献数据库的交叉索引,以及数据库内部条⽬之间的索引,这些内部索引帮助⽤户在包括复合物、酶-底物相互作⽤、活化和级联和具有共同特征的条⽬之间⽅便的检索。每季度都发⾏⼀次完整的数据库,每周可以得到更新部分。PSD数据库有⼏个辅助数据库,如基于超家族的⾮冗余库等。PIR提供三类序列搜索服务:基于⽂本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋⽩质家族信息的⾼级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的⽹址是:http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /。
数据库下载地址是:ftp://http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /pir/。2. SWISS-PROT
SWISS-PROT是经过注释的蛋⽩质序列数据库,由欧洲⽣物信息学研究所(EBI)维护。数据库由蛋⽩质序列条⽬构成,每个条⽬包含蛋⽩质序列、引⽤⽂献信息、分类学信息、注释等,注释中包括蛋⽩质的功能、转录后修饰、特殊位点和区域、⼆级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建⽴了交叉引⽤,其中包括核酸序列库、蛋⽩质序列库和蛋⽩质结构库等。利⽤序列提取系统(SRS)可以⽅便地检索SWISS-PROT和其它EBI的数据库。
SWISS-PROT只接受直接测序获得的蛋⽩质序列,序列提交可以在其Web页⾯上完成。SWISS-PROT的⽹址是:http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /swissprot/。3. PROSITE
PROSITE数据库收集了⽣物学有显著意义的蛋⽩质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别⼀个未知功能的蛋⽩质序列应该属于哪⼀个蛋⽩质家族。有的情况下,某个蛋⽩质与已知功能蛋⽩质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效⼯具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与⾦属离⼦结合的残基、⼆硫键的半胱氨酸、与⼩分⼦或其它蛋⽩质结合的区域等;除了序列模式之外,PROSITE还包括由多序列⽐对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。PROSITE的⽹址是:http://www.expasy.ch/prosite/。4. PDB
蛋⽩质数据仓库(PDB)是国际上唯⼀的⽣物⼤分⼦结构数据档案库,由美国Brookhaven国家实验室建⽴。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档⽽成。⽬前PDB数据库的维护由结构⽣物信息学研究合作组织(RCSB)负责。RCSB 的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据⽂件格式和其它⽂档的说明,PDB数据还可以从发⾏的光盘获得。使⽤Rasmol等软件可以在计算机上按PDB⽂件显⽰⽣物⼤分⼦的三维结构。
RCSB的PDB数据库⽹址是:http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /pdb/。5. SCOP
蛋⽩质结构分类(SCOP)数据库详细描述了已知的蛋⽩质结构之间的关系。分类基于若⼲层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠⼦(fold),描述空间⼏何结构的关系;折叠类,所有折叠⼦被归于全α、全β、α/β、α+β和多结构域等⼏个⼤类。SCOP还提供⼀个⾮冗余的ASTRAIL序列库,这个库通常被⽤来评估各种序列⽐对算法。此
外,SCOP还提供⼀个PDB-ISL中介序列库,通过与这个库中序列的两两⽐对,可以找到与未知结构序列远缘的已知结构序列。
SCOP的⽹址是:http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /scop/。6. COG
蛋⽩质直系同源簇(COGs)数据库是对细菌、藻类和真核⽣物的21个完整基因组的编码蛋⽩,根据系统进化关系分类构建⽽成。COG库对于预测单个蛋⽩质的功能和整个新基因组中蛋⽩质的功能都很有⽤。利⽤COGNITOR程序,可以把某个蛋⽩质与所有COGs中的蛋⽩质进⾏⽐
对,并把它归⼊适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
COG库的⽹址是:http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /COG。
下载COG库和COGNITOR程序在:ftp://http://www.doczj.com/doc/2fe0da71f46527d3240ce014.html /pub/COG。6.基因微阵列(Microarray)检测基因表达谱实验的步骤。
7.PAM和BLOSUM记分矩阵的英⽂全称,并⽐较这两种记分矩阵
对于蛋⽩质序列,计分矩阵主要⽤于记录在做序列⽐对时两个相对应的残基的相似度,⼀旦这个矩阵定义好了以后,⽐对程式就可以利⽤这个矩阵,尽量将相似的残基排在⼀起,以达到最好的⽐对。
得分矩阵主要有两种,第⼀种就是PAM(Point Accepted Multation),另⼀种就是BLOSUM。
1、PAM矩阵(Point Accepted Mutation)
基于进化的点突变模型,如果两种氨基酸替换频繁,说明⾃然界接受这种替换,那么这对氨基酸替换得分就⾼。⼀个PAM就是⼀个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发⽣变化,因为其中⼀些位置可能会经过多次突变,甚⾄可能会变回到原来的氨基酸。PAM矩阵的制作步骤:
构建序列相似(⼤于85%)的⽐对
计算氨基酸 j 的相对突变率mj(j被其它氨基酸替换的次数)针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数替换次数除以相对突变率(mj)
利⽤每个氨基酸出现的频度对j 进⾏标准化取常⽤对数,得到PAM-1(i, j)
将PAM-1⾃乘N次,可以得到PAM-N。
这种矩阵的缺点是⼀旦PAM1的矩阵有效地误差,那么⾃乘250后得到的PAM250矩阵的误差就会变得很⼤。如,PAM120矩阵⽤于⽐较相距120个PAM单位的序列。⼀个PAM-N矩阵元素(i,j)的值:
反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的频率。针对不同的进化距离采⽤PAM 矩阵序列相似度 = 40% 50% 60%| | |
打分矩阵 = PAM120 PAM80 PAM60PAM250 → 14% – 27%
2、BLOSUM 矩阵(blocks substitution matrix)此矩阵与PAM矩阵的不同之处在于:
(1)⽤于产⽣矩阵的蛋⽩质家族及多肽链数⽬,BLOSUM⽐PAM⼤约多20倍。(2)PAM:家族内成员相⽐,然后把所有家族中对某种氨基酸的⽐较结果加和在⼀起,产⽣“取代”数据(PAM-1 );PAM-1⾃乘n次,得PAM-n。BLOSUM:⾸先寻找氨基酸模式,即有意义的⼀段氨基酸⽚断(如⼀个结构域及其相邻的两⼩段氨基酸序列)
,分别⽐较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另⼀种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的⽐较数据为根据,产⽣BLOSUM60;以所有80%保守性的氨基酸模式之间的⽐较数据为根据,产⽣BLOSUM80。
(3)PAM-n中,n 越⼩,表⽰氨基酸变异的可能性越⼩;相似的序列之间⽐较应该选⽤n值⼩的矩阵,不太相似的序列之间⽐较应该选⽤n值⼤的矩阵。PAM-250⽤于约 20%相同序列之间的⽐较。BLOSUM-n中,n越⼩,表⽰氨基酸相似的可能性越⼩;相似的序列之间⽐较应该选⽤ n 值⼤的矩阵,不太相似的序列之间⽐较应该选⽤n值⼩的矩阵。BLOSUM-62⽤来⽐较62%相似度的序列,BLOSUM-80⽤来⽐较80%左右的序列。8.系统发⽣分析的四个步骤。
系统分析⽅法的具体步骤包括:限定问题、确定⽬标、调查研究收集数据、提出备选⽅案和评价标准、备选⽅案评估和提出最可⾏⽅案。1、限定问题
所谓问题,是现实情况与计划⽬标或理想状态之间的差距。系统分析的核⼼内容有两个:其⼀是进⾏“诊断”,即找出问题是及其原因;其⼆是“开处⽅”,即提出解决问题的最可⾏⽅案。所谓限定问题,就是要明确问题的本质或特性、问题存在范围和影响程度、问题产⽣的时间和环境、问题的症状和原因等。限定问题是系统分析中关键的⼀步,因为如果“诊断”出错,以后开的“处⽅”就不可能对症下药。在限定问题时,要注意区别症状和问题,探讨问题原因不能先⼊为主,同时要判别哪些是局部问题,哪些是整体问题,问题的最后确定应该在调查研究之后。2、确定⽬标
系统分析⽬标应该根据客户的要求和对需要解决问题的理解加以确定,如有可能应尽量通过指标表⽰,以便进⾏定量分析。对不能定量描述的⽬标也应该尽量⽤⽂字说明清楚,以便进⾏定性分析和评价系统分析的成效。3、调查研究,收集数据
调查研究和收集数据应该围绕问题起因进⾏,⼀⽅⾯要验证有限定问题阶段形成的假设,另⼀⽅⾯要探讨产⽣问题的根本原因,为下⼀步提出解决问题的备选⽅案做准备。
调查研究常⽤的有四种⽅式,即阅读⽂件资料、访谈、观察和调查。
收集的数据和信息包括事实(facts)、见解(opinions)和态度(attitudes)。要对数据和信息去伪存真,交叉核实,保证真实性和准确性。
4、提出备选⽅案和评价标准
通过深⼊调查研究,使真正有待解决的问题得以最终确定,使产⽣问题的主要原因得到明确,在此基础上就可以有针对性地提出解决问题的备选⽅案。备选⽅案是解决问题和达到咨询⽬标可供选择的建议或设计,应提出两种以上的备选⽅案,以便提供进⼀步评估和筛选。为了对备选⽅案进⾏评估,要根据问题的性质和客户具备的条件。提出约束条件或评价标准,供下⼀步应⽤。
5、备选⽅案评估
根据上述约束条件或评价标准,对解决问题备选⽅案进⾏评估,评估应该是综合性的,不仅要考虑技术因素,也要考虑社会经济等因素,评估⼩姐应该有⼀定代表性,除咨询项⽬组成员外,也要吸收客户组织的代表参加。根据评估结果确定最可⾏⽅案。
6、提交最可⾏⽅案
最可⾏⽅案并不⼀定是最佳⽅案,它是在约束条件之内,根据评价标准筛选出的最现实可⾏的⽅案。如果客户满意,则系统分析达到⽬标。如果客户不满意,则要与客户协商调整约束条件或评价标准,甚⾄重新限定的问题,开始新⼀轮系统分析,直到客户满意为⽌。9 BLAST的应⽤范围BLAST 在⽣物上的含义
BLAST (Basic Local Alignment Search Tool)是⼀套在蛋⽩质数据库或DNA 数据库中进⾏相似性⽐较的分析⼯具。BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。BLAST结果中的得分是对⼀种对相似性的统计说明。BLAST 采⽤⼀种局部的算法获得两个序列中具有相似性的序列。如果您想进⼀步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。BLAST的功能
BLAST对⼀条或多条序列(可以是任何形式的序列)在⼀个或多个核酸或蛋
⽩序列库中进⾏⽐对。BLAST还能发现具有缺⼝的能⽐对上的序列。BLAST是基于Altschul等⼈在J.Mol.Biol上发表的⽅法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进⾏同源
性⽐对⼯作。从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺的⽐对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋⽩序列和核算序列;也可选择多个数据库但数据库必须是同⼀类型的,即要么都是蛋⽩数据库要么都是核酸数据库。所查询的序列和调⽤的数据库则可以是任
何形式的组合,既可以是核酸序列到蛋⽩库中作查询,也可以是蛋⽩序列到蛋⽩库中作查询,反之亦然。GCG及EMBOSS等软件包中包含有五种BLAST:
1、BLASTP是蛋⽩序列到蛋⽩库中的⼀种查询。库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。2、BLASTX是核酸序列到蛋⽩库中的⼀种查询。先将核酸序列翻译成蛋⽩序列(⼀条核酸序列会被翻译成可能的六条蛋⽩),再对每⼀条作⼀对⼀的蛋⽩序列⽐对。
3、BLASTN是核酸序列到核酸库中的⼀种查询。库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。4、TBLASTN是蛋⽩序列到核酸库中的⼀种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋⽩序列,再同所查序列作蛋⽩与蛋⽩的⽐对。
5、TBLASTX是核酸序列到核酸库中的⼀种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋⽩(每条核酸序
列会产⽣6条可能的蛋⽩序列),这样每次⽐对会产⽣36种⽐对阵列。由于这种⽐对? 母丛有裕?虼薚BLASTX在⽐对中对缺⼝不予以考虑。
通常根据查询序列的类型(蛋⽩或核酸)来决定选⽤何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要⽤TBLASTX 也可,但记住此时不考虑缺⼝。
BLAST适⽤于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到⽹上查询也可以(即NetBlast),但记住如果你认为⾃⼰的序列很有价值的话,还是谨慎为宜。11.序列⽐对的动态规划算法的具体步骤
设计⼀个标准的动态规划算法,通常可按以下⼏个步骤进⾏:
1.划分阶段:按照问题的时间或空间特征,把问题分为若⼲个阶段。注意这若⼲个阶段⼀定要是有序的或者是可排序的(即⽆后向性),否则问题就⽆法⽤动态规划求解。
2.选择状态:将问题发展到各个阶段时所处于的各种客观情况⽤不同的状态表⽰出来。当然,状态的选择要满⾜⽆后效性。3.确定决策并写出状态转移⽅程:之所以把这两步放在⼀起,是因为决策和状态转移有着天然的联系,状态转移就是根据上⼀阶段的状态和决策来导出本阶段的状态。所以,如果我们确定了决策,状态转移⽅程也就写出来了。但事实上,我们常常是反过来做,根据相邻两段的各状态之间的关系来确定决策。
4.写出规划⽅程(包括边界条件):动态规划的基本⽅程是规划⽅程的通⽤形式化表达式。⼀般说来,只要阶段、状态、决策和状态转移确定了,这⼀步还是⽐较简单的。13 蛋⽩质组学研究的⽬的和任务
蛋⽩质组学的研究是⼀项系统性的多⽅位的科学探索。其研究内容包括:蛋⽩质结构、蛋⽩质分布、蛋⽩质功能、蛋⽩质的丰度变化、蛋⽩质修饰、蛋⽩质与蛋⽩质的相互作⽤、蛋⽩质与疾病的关联性。
⽬前科学家常⽤的蛋⽩质组学的研究⼿段有质谱分析技术(Mass Spectromotry,MS)和蛋⽩质芯⽚技术(ProteinMicroarray)。
质谱分析技术是发展蛋⽩质组学的⼀项重要技术。它是⼀个由离⼦源、⾼通量分析仪和检测仪组成的体系,⽬前市场常⽤的质谱分析技术有以下四种:离⼦阱质谱(Iron trap)、飞⾏时间质谱(Time-of-flight)、四级柱质谱(Quadrupole)和傅⽴叶变换离⼦回旋共振质谱(Fourier transform ion cyclotron)。它能从复杂的样本中定性、定量分析蛋⽩质。该技术相对经济实惠,操作简单⽅便,灵敏度⾼。但是,其精确度和分辨率有待进⼀步提⾼。为质谱分析技术准备样本的⽅法以⼆维凝胶电泳(Two-Dimentional Gel Electrophoresis)为主
蛋⽩质组学研究的另⼀重要技术是蛋⽩质芯⽚技术。基于功能的不同,它分为分析芯⽚(Analytical Microarray)和功能性蛋⽩芯⽚( Functional Protein Microarray)。前者是把⼀系列顺序排列的蛋⽩质特异性配体,主要是抗体,点样到特殊性材料表⾯,监测蛋⽩质的差异表达、进⾏蛋⽩质的表达谱分析或者应⽤于临床诊断、预后判断等等。后者是把蛋⽩质或蛋⽩质结构域点样到特殊性材料表⾯,着重于解读复杂的细胞过程,⽐如:细胞凋亡、⽣长因⼦信号、细胞间的信息交流等等。⾼特异性、⾼亲和性抗体的开发,齐全的、⾼纯度蛋⽩质的表达以及新型特殊性材料表⾯的研究是⽬前⼤量开展蛋⽩质芯⽚技术有待解决的问题。
破解蛋⽩质组学的秘密是⼀项庞⼤的⼯程,就象⼈类完成基因组测序计划,它更需要全球性合作、多⾏业参与、多技术⽀持,最终实现基因结构、基因表达、基因功能、蛋⽩质结构、蛋⽩质和基因治疗的完美统⼀。
早期蛋⽩质组学的研究范围主要是指蛋⽩质的表达模式(Expression profile),随着学科的发展,蛋⽩质组学的研究范围也在不断完善和扩充。蛋⽩质翻译后修饰研究已成为蛋⽩质组研究中的重要部分和巨⼤挑战。蛋⽩质-蛋⽩质相互作⽤的研究也已被纳⼊蛋⽩质组学的研究范畴。⽽蛋⽩质⾼级结构的解析即传统的结构⽣物学,虽也有⼈试图将其纳⼊蛋⽩质组学研究范围,但⽬前仍独树⼀帜。
1.蛋⽩质鉴定:可以利⽤⼀维电泳和⼆维电泳并结合Western等技术,利⽤蛋⽩质芯⽚和抗体芯⽚及免疫共沉淀等技术对蛋⽩质进⾏鉴定研究。
2.翻译后修饰:很多mRNA表达产⽣的蛋⽩质要经历翻译后修饰如磷酸化,糖基化,酶原激活等。翻译后修饰是蛋⽩质调节功能的重要⽅式,因此对蛋⽩质翻译后修饰的研究对阐明蛋⽩质的功能具有重要作⽤。
3.蛋⽩质功能确定:如分析酶活性和确定酶底物,细胞因⼦的⽣物分析/配基-受体结合分析。可以利⽤基因敲除和反义技术分析基因表达产物-蛋⽩质的功能。另外对蛋⽩质表达出来后在细胞内的定位研究也在⼀定程度上有助于蛋⽩质功能的了解。Clontech的荧光蛋⽩表达系统就是研究蛋⽩质在细胞内定位的⼀个很好的⼯具。
4.对⼈类⽽⾔,蛋⽩质组学的研究最终要服务于⼈类的健康,主要指促进分⼦医学的发展。如寻找药物的靶分⼦。很多药物本
⾝就是蛋⽩质,⽽很多药物的靶分⼦也是蛋⽩质。药物也可以⼲预蛋⽩质-蛋⽩质相互作⽤。
蛋⽩质组学(proteome)⼀词,源于蛋⽩质(protein)与基因组(genome)两个词的杂合,意指“⼀种基因组所表达的全套蛋⽩质”,即包括⼀种细胞乃⾄⼀种⽣物所表达的全部蛋⽩质。蛋⽩质组本质上指的是在⼤规模⽔平上研究蛋⽩质的特征,包括蛋⽩质的表达⽔平,翻译后的修饰,蛋⽩与蛋⽩相互作⽤等,由此获得蛋⽩质⽔平上的关于疾病发⽣,细胞代谢等过程的整体⽽全⾯的认识,这个概念最早是在1995年提出的。蛋⽩质组的研究不仅能为⽣命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务