(12)发明专利申请
(10)申请公布号(10)申请公布号 CN 104805186 A (43)申请公布日(43)申请公布日 2015.07.29
(21)申请号 201510148683.X(22)申请日 2015.03.31
(71)申请人江汉大学
地址430056 湖北省武汉市沌口经济技术开
发区新江大路8号江汉大学申请人农业部科技发展中心(72)发明人张静 彭海 陈红 章伟雄(74)专利代理机构北京三高永信知识产权代理
有限责任公司 11138
代理人徐立(51)Int.Cl.
C12Q 1/68(2006.01)
权利要求书2页 说明书9页
(54)发明名称
一种测试玉米品种实质性派生关系的方法(57)摘要
本发明公开了一种测试玉米品种实质性派生关系的方法。该方法包括:获得变异位点;确定测试区域;抽样提取并获得抽样样本的DNA;制备引物;利用所述引物分别对两个抽样样本的DNA进行扩增,分别得到两个待测玉米品种在测试区域的扩增产物用于构建两个待测玉米品种的高通量测序文库;对两个高通量测序文库分别进行高通量测序,分别得到两个所述待测玉米品种的测序片段组;分析两个测序片段组,分别获得两个待测玉米品种基因型;比较两个待测玉米品种基因型,获得待测玉米品种间差异基因型的比例;根据待测玉米品种间差异基因型的比例,判断两个待测玉米品种的实质性派生关系。该方法能够准确、快速且简单地判断待测玉米品种间的实质性派生关系。
C N 1 0 4 8 0 5 1 8 6 A CN 104805186 A
权 利 要 求 书
1/2页
1.一种测试玉米品种实质性派生关系的方法,其特征在于,所述方法包括:
获得不同玉米品种间的变异位点;通过所述变异位点确定测试区域;分别对两个待测玉米品种进行抽样,提取并获得两个所述待测玉米品种的抽样样本的DNA;
制备扩增所述测试区域的引物;
利用所述引物分别对两个所述抽样样本的DNA进行扩增,分别得到两个所述待测玉米品种在所述测试区域的扩增产物,所述扩增产物分别用于构建两个所述待测玉米品种的高通量测序文库;
对两个所述待测玉米品种的所述高通量测序文库分别进行高通量测序,分别得到两个所述待测玉米品种的测序片段组;
分析两个所述待测玉米品种的测序片段组,分别获得两个待测玉米品种基因型,所述待测玉米品种基因型为所述测试区域内变异碱基的组合,且所述待测玉米品种基因型的频率≥30%;
比较两个所述待测玉米品种基因型,获得待测玉米品种间差异基因型的比例;根据所述待测玉米品种间差异基因型的比例,判断两个所述待测玉米品种的实质性派生关系。
2.根据权利要求1所述的方法,其特征在于,所述测试区域不包括扩增产生杂株基因型的区域;
所述杂株基因型指频率≥0.02%,且所述杂株基因型与所述待测玉米品种的所有基因型间的差异碱基的数量≥2个或所述差异碱基中有非连续碱基的插入或缺失。
3.根据权利要求1所述的方法,其特征在于,所述测试区域的数目满足以下条件为:BINOMDIST(SD*TN,TN,0.80*SD,TRUE)≥95%,其中,TN为所述测试区域的数目,SD为判定阈值;所述测试区域的数目满足的条件含义为:当所述测试区域的数目为TN、所述判定阈值为SD且所述待测玉米品种间差异基因型的比例为0.80*SD时,判断所述待测玉米品种间差异基因型的比例小于所述判定阈值SD的概率保障大于等于95%。
4.根据权利要求1所述的方法,其特征在于,分别对两个所述待测玉米品种进行抽样的方法为:对两个所述待测玉米品种分别随机选取100个以上的样本混合后获得两个所述待测玉米品种的抽样样本。
5.根据权利要求1所述的方法,其特征在于,判断两个所述待测玉米品种的实质性派生关系的方法为:
当所述待测玉米品种间差异基因型的比例<SD时,两个所述待测玉米品种间有实质性派生关系;当所述待测玉米品种间差异基因型的比例≥SD时,两个所述待测玉米品种不具有实质性派生关系,其中,SD为判定阈值。
6.根据权利要求5所述的方法,其特征在于,若判断两个所述待测玉米品种具有实质性派生关系时,结论正确的概率≥BINOMDIST(SD*TRN,TRN,OD,TR UE);若判断两个所述待测玉米品种间不具有实质性派生关系时,结论正确的概率≥BINOMDIST((1-SD)*TRN,TRN,1-OD,TRUE);其中,TRN为两个所述待测玉米品种的共有测试区域的数目,OD为所述待测玉米品种间差异基因型的比例,BINOMDIST为excel 2010
2
CN 104805186 A
权 利 要 求 书
2/2页
函数,BINOMDIST(SD*TRN,TRN,OD,TRUE)的含义为:当所述共有测试区域的数目为TRN时,所述待测玉米品种间差异基因型的比例OD小于所述判定阈值SD的概率;BINOMDIST((1-SD)*TRN,TRN,1-OD,T RUE)含义为:当所述共有测试区域的数目为TRN时,所述待测玉米品种间差异基因型的比例OD大于所述判定阈值SD的概率。
7.根据权利要求1所述的方法,其特征在于,通过所述变异位点确定所述测试区域的方法为:
通过区分度
计算区分度的值,其中,a为变异窗口区域中被检测到的
品种总数,bi为所述变异窗口区域中第i种基因型的品种数,且bi>1,k为包含大于1个品
种的基因型的数目,所述变异窗口区域为以每个单核苷酸变异位点为中心,向所述单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口;
所述测试区域为细胞质基因组上区分度大的区域或细胞核基因组上所述区分度大且均匀分布的区域。
3
CN 104805186 A
说 明 书
一种测试玉米品种实质性派生关系的方法
1/9页
技术领域
[0001]
本发明涉及生物技术领域,特别涉及一种测试玉米品种实质性派生关系的方法。
背景技术
UPOV(International Union for the Protection of New Varieties of Plants:国际植物新品种保护联盟)公约1991年文本对实质性派生品种做了原则性的规定,即实质性派生品种是指由A品种选育得到的B品种没有实质性的变化,B品种称为A品种的实质性派生品种,A品种与B品种间具有实质性派生关系。判断两个品种间是否具有实质性派生关系的方法是检测这两个品种间基因型的差异比例,当该差异比例超过一定值时,即可认为两个品种间不具有实质性派生关系,相反,则认为两个品种间具有实质性派生关系。[0003] 目前检测实质性派生性关系的方法还很少,仅有方法的大致流程为:通过SSR标记或SNP标记,扩增待测玉米品种的每个测试区域,再通过电泳或一代测序检测获得的每个测试区域的基因型,根据基因型,判断待测玉米品种间的实质性派生关系。[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:[0005] 实质性派生关系需要对待测玉米品种间大量的基因位点进行检测后,才能准确判断两个品种间是否具有实质性派生关系。在现有的检测实质性派生性关系的方法中,检测位点少导致实质性派生关系的判定结论不准确。同时,现有的SSR标记和SNP标记由于需要单独扩增和单独检测每个测试区域,因此,测试区域数目过多,必然会导致工作量极大增加,因此,现有的方法的测试区域数目都在300个以内,不能完整代表待测玉米品种的全部基因型,从而导致检测结果不准确,实质性派生关系的判定结论也不准确。
[0002]
发明内容
为了解决现有技术中检测实质性派生关系不准确的问题,本发明实施例提供了一种测试玉米品种实质性派生关系的方法。所述技术方案如下:
[0007] 本发明实施例提供了一种测试玉米品种实质性派生关系的方法,所述方法包括:[0008] 获得不同玉米品种间的变异位点;[0009] 通过所述变异位点确定测试区域;[0010] 分别对两个待测玉米品种进行抽样,提取并获得两个所述待测玉米品种的抽样样本的DNA;
[0011] 制备扩增所述测试区域的引物;
[0012] 利用所述引物分别对两个所述抽样样本的DNA进行扩增,分别得到两个所述待测玉米品种在所述测试区域的扩增产物,所述扩增产物分别用于构建两个所述待测玉米品种的高通量测序文库;
[0006]
对两个所述待测玉米品种的所述高通量测序文库分别进行高通量测序,分别得到
两个所述待测玉米品种的测序片段组;
[0014] 分析两个所述待测玉米品种的测序片段组,分别获得两个待测玉米品种基因型,
[0013]
4
CN 104805186 A
说 明 书
2/9页
所述待测玉米品种基因型为所述测试区域内变异碱基的组合,且所述待测玉米品种基因型的频率≥30%;
[0015] 比较两个所述待测玉米品种基因型,获得待测玉米品种间差异基因型的比例;[0016] 根据所述待测玉米品种间差异基因型的比例,判断两个所述待测玉米品种的实质性派生关系。[0017] 具体地,所述测试区域不包括扩增产生杂株基因型的区域;[0018] 所述杂株基因型指频率≥0.02%,且所述杂株基因型与所述待测玉米品种的所有基因型间的差异碱基的数量≥2个或所述差异碱基中有非连续碱基的插入或缺失。[0019] 具体地,所述测试区域的数目满足以下条件为:BINOMDIST(SD*TN,TN,0.80*SD,TRUE)≥95%,其中,TN为所述测试区域的数目,SD为判定阈值;所述测试区域的数目满足的条件含义为:当所述测试区域的数目为TN、所述判定阈值为SD且所述待测玉米品种间差异基因型的比例为0.80*SD时,判断所述待测玉米品种间差异基因型的比例小于所述判定阈值SD的概率保障大于等于95%。[0020] 具体地,分别对两个所述待测玉米品种进行抽样的方法为:对两个所述待测玉米品种分别随机选取100个以上的样本混合后获得两个所述待测玉米品种的抽样样本。[0021] 具体地,判断两个所述待测玉米品种的实质性派生关系的方法为:[0022] 当所述待测玉米品种间差异基因型的比例<SD时,两个所述待测玉米品种间有实质性派生关系;当所述待测玉米品种间差异基因型的比例≥SD时,两个所述待测玉米品种不具有实质性派生关系,其中,SD为判定阈值。[0023] 进一步地,若判断两个所述待测玉米品种具有实质性派生关系时,结论正确的概率≥BINOMDIST(SD*TRN,TRN,OD,TRUE);若判断两个所述待测玉米品种间不具有实质性派生关系时,结论正确的概率≥BINOMDIST((1-SD)*TRN,TRN,1-OD,TRUE);其中,TRN为两个所述待测玉米品种的共有测试区域的数目,OD为所述待测玉米品种间差异基因型的比例,BINOMDIST为excel 2010函数,BINOMDIST(SD*TRN,TRN,OD,TRUE)的含义为:当所述共有测试区域的数目为TRN时,所述待测玉米品种间差异基因型的比例OD小于所述判定阈值SD的概率;BINOMDIST((1-SD)*TRN,TRN,1-OD,TRUE)含义为:当所述共有测试区域的数目为TRN时,所述待测玉米品种间差异基因型的比例OD大于所述判定阈值SD的概率。[0024] 具体地,通过所述变异位点确定所述测试区域的方法为:
[0025]
通过区分度计算区分度的值,其中,a为变异窗口区域中被检测
到的品种总数,bi为所述变异窗口区域中第i种基因型的品种数,且bi>1,k为包含大于1个品种的基因型的数目,所述变异窗口区域为以每个单核苷酸变异位点为中心,向所述单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口;
[0026] 所述测试区域为细胞质基因组上区分度大的区域或细胞核基因组上所述区分度大且均匀分布的区域。
[0027] 本发明实施例提供的技术方案带来的有益效果是:本发明实施例提供的方法通过多位点扩增和高通量测序,保证待测玉米品种的测试区域的大样本抽样,成功实现了准确判断待测玉米品种间实质性派生关系的目标,且测试简单、快速。
5
CN 104805186 A
说 明 书
3/9页
具体实施方式
[0028] 为使本发明的目的、技术方案和优点更加清楚,下面将对本发明实施方式作进一步地详细描述。
[0029] 实施例.测定玉米品种“GL95”与“1102”间的实质性派生关系[0030] 本发明实施例提供的待测玉米品种为玉米品种“GL95”和“1102”,二者均为公开、公知的品种。[0031] 一、获得不同玉米品种间的变异位点。
[0032] 不同玉米品种间的变异位点可以从已公布的文献资料中获取,但该方法所获得的结果比较零星,在本实施例中,通过将不同玉米的基因组序列与参考玉米品种的基因组序列进行比对,获得了大量的不同玉米品种间的变异位点,其中参考玉米品种可以为“B73”玉米,该“B73”玉米可以替换为其他已知的参考玉米品种。[0033] 进一步地,获得不同玉米品种的基因组序列的方法如下:[0034] 本实施例的不同玉米品种的基因组序列有两种来源,第一种为Chia等对103个玉米品种的基因组的高通量测序序列,相关文献信息如下:Chia JM et al.Maize HapMap2identifies extant variation from a genome in flux.Nat Genet.2012,44(7):803-7。该103个玉米品种的基因组序列公布于NCBI Short Read Archive(http://www.ncbi.nlm.nih.gov/sra),接收号为SRA051245;第二种为按Chia等的上述发表的文章中提供的方法对“GL95”、“1102”和杂交种“高赖145”进行了高通量测序。本实施例共获得了106个玉米品种的基因组的高通量测序序列。[0035] 进一步地,利用不同品种的基因组序列获得变异位点。[0036] 具体地,由于这106个玉米品种的测序深度都不高,仅能鉴定单核苷酸变异(SNP)位点,其它变异类型如重复数变异,由于可信度低,不进行鉴定。利用Frederick Sanger比对软件(版本号为0.4)将这106个玉米品种的基因组的高通量测序序列比对到“B73”玉米细胞核参考基因组(版本为IRGSP 4.0,下载地址:http://www.ncbi.nlm.nih.gov)和细胞质参考基因组上,该细胞质参考基因组包括线粒体参考基因组与叶绿体参考基因组,其在NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)上的接收号分别为NC_011033和NC_001320。对比时,插入片段长度设为500bp,其他参数设定为默认值。采用的Ssaha Pileup软件包(版本号为0.5)鉴定每个品种的SNP位点。该SNP位点定义为差异确定的碱基对、单碱基的插入或单碱基的缺失。该差异确定的碱基对是指不包括差异不确定的碱基对,差异不确定的碱基对指是某些简并碱基间的碱基对,如R代表A或G,因此,A与R之间可能存在差异,也可能不存在差异,因此,A与R间差异不明确,互不为SNP。因此,本发明实施例中的SNP位点为不包括上述差异不确定的碱基对。按以上SNP位点的定义,本发明实施例在所有106个玉米品种间共获得53855606个SNP位点,其中9005个SNP位点位于细胞质基因组上,其余的SNP位点位于细胞核基因组上。后文提及的基因型即是指测试区域内多个SNP位点的组合,核基因型指基因型位于细胞核基因组上,质基因型是指基因型位于细胞质基因组上。例如,表1中第8个测试区域位于细胞核基因组上,为核基因型,该测试区域共有7个SNP位点,该测试区域的基因型即为这7个SNP位点的组合。[0037] 二、通过变异位点确定测试区域,具体方法如下:
6
CN 104805186 A[0038]
说 明 书
4/9页
测试区域为细胞质基因组上区分度大的区域或细胞核基因组上区分度大且SNP
其中,a为变异窗口区域中被检测到
位点均匀分布的区域,其中,区分度
的品种总数,bi为变异窗口区域中第i种基因型的品种数,且bi>1,k为包含大于1个品种的基因型的数目,变异窗口区域为以每个单核苷酸变异位点(SNP位点)为中心,向单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口;测试区域为细胞质基因组上区分度大的区域或细胞核基因组上区分度大且均匀分布的区域。区分度的计算原理如下:所有品种间的组合数为目为
其中,同一基因型内的不同品种间的组合是不可区分的,其数
可被区分的品种组合的比例
那么,不可被区分的品种组合的比例为
即区分度由此可见,区分度越大,越能将不同品种区分开,区分度大的
变异窗口区域对实质性派生关系的测试更有效。若细胞核基因组上的变异窗口区域分布不
均匀,会导致某些区域相邻,从而连锁遗传,信息容易重叠,因此,细胞核基因组上选择测试区域的综合原则是:区分度大且SNP位点均匀分布。细胞质基因组无连锁遗传问题,所以,细胞质基因组上只需要选择区分度大的区域即可。
首先,以获得的每个SNP位点为中心,向左右各延伸99bp和100bp,构成200bp的
变异窗口。根据获得的53855606个SNP位点,可以获得53855606个变异窗口,计算这些变
[0039]
异窗口区域的区分度例如,第1个变异窗口区域中,共检测到了a=102个
品种,共有k=3种基因型CCA、TCA、TCG,它们的品种数分别为b1=5个、b2=11个和b3=76个,因此,
其含义是:通过第1个变异窗口区域,可
以将102个品种中的43%的品种组合区分开,另外47%的品种组合无法区分开,需要更多的变异窗口才能区分开。按照同样的方法,计算获得全部53855606个变异窗口的区分度并从中选取位于细胞核基因组中区分度最大的8000个变异窗口和位于细胞质基因组中区分度最大的100个变异窗口。逐个检查位于细胞核基因组的8000个变异窗口中,每个变异窗口与下一个变异窗口间的距离,若距离超过500K(1K=1000个碱基),则放弃其中区分度较小的变异窗口之后再检查,直至相邻查变异窗口的距离均大于500K为止。选择500K的距离标准是因为玉米基因组大小约为2300M(1M=100万个碱基),按最终入选2400个位于细胞核基因组的测试区域计,平均的测试区域间距离为1M,但由于一些特异区域如着丝粒等很少有变异位点,因此,平均距离应该小于1M。按以上方法,选出了5030个位于细胞核基因组的变异窗口,它们与获得的位于细胞质基因组中区分度最大的100个变异窗口一起共5130个变异窗口作为入选的测试区域。其中,选择区分度最大的100个变异窗口,为经验值,该数量可以根据具体情况进行修改。[0040] 三、分别对两个待测玉米品种进行抽样,提取并获得两个待测玉米品种的抽样样
7
CN 104805186 A
说 明 书
5/9页
本的DNA,抽样样本的获得方法为:对两个待测玉米品种分别随机选取100个以上的样本混合后,获得抽样样本。[0041] 在本实施例中,选取了待测玉米品种“GL95”的5000粒种子发芽,随机选取4000个大小大致相等的芽混合后置于研钵中,向研钵中加入液氮后充分研磨成粉。采用北京天根生化科技有限公司生产的货号为DP305的植物基因组DNA提取试剂盒提取并获得待测玉米品种“GL95”混合样本的DNA,DNA提取方法按该试剂盒的操作手册进行。利用美国Invitrigen公司生产的
dsDNA HS Assay Kit(货号为Q32852)及其说明书对获得
的DNA进行定量,将定量后的待测玉米品种“GL95”的DNA稀释为10.00ng/μl。[0042] 按照同样的方法,对待测玉米品种“1102”进行抽样并提取DNA,同样将定量后的待测玉米品种“1102”的DNA稀释为10.00ng/μl。[0043] 四、制备扩增测试区域的引物,具体如下:
[0044] 测试区域采用多重PCR(Polymerase Chain Reaction,聚合酶链式反应)技术进行检测,多重PCR技术是指在同一个PCR反应中加入多个PCR引物,同时扩增基因组上的多个位点。该技术的关键是设计并合成多重PCR引物,本实施例采用美国LifeTechnology公司提供的多重PCR技术,其能够设置多至12000重PCR引物。[0045] 测试区域的数目满足以下条件:BINOMDIST(SD*TN,TN,0.80*SD,TRUE)≥95%,其中,TN为测试区域的数目,SD为判定阈值;BINOMDIST(SD*TN,TN,0.80*SD,TRUE的含义为:当测试区域的数目为TN、待测玉米品种间差异基因型的比例为0.80*SD且判定阈值为SD时,判断待测玉米品种间差异基因型的比例小于判定阈值SD的概率保障大于等于95%。该条件的含义是:当待测玉米品种间差异基因型的比例为判断阈值的80%时,由测试区域的数目决定的判断待测玉米品种具有实质性派生关系的正确率≥95%。实质性派生关系的判断阈值是根据各国的育种现状、标记方式、要求严格程度而人为确定的。在本实施例中,SD确定为3%。逐步加大测试区域的数目TN发现,当TN≥1934时,上述公式成立,因此,测试区域的数目应该≥1934。对已有的SSR和SNP测试来说,200个测试区域已算很多了,若待测玉米品种间差异基因型的比例为判断阈值的80%,其正确率仅≥BINOMDIST(3%*200,200,0.80*3%,TRUE)=79%,因此,本实施提供的方法,可以获得更为准确的结论。[0046] 引物获取过程如下:登录LifeTechnology公司多重PCR引物在线设计网页https://ampliseq.com/protected/help/pipelineDetails.action,按其要求提交相关信息即可。其中,本实施例中,“Application type”选项选择“DNA Hotspot designs(single-pool)”。若选择multi-pool,则多重PCR将分多管进行,成本会有所增加,而single-pool的引物只需要一次多重PCR即可,节省成本,缺点是某些通用测试区域引物设计可能失败,但基因组上的备选的通用测试区域较多,因此,放弃一些备选的通用测试区域并不影响结果。将待测玉米品种的细胞核参考基因组和细胞质参考基因组融合为一个文件,并在“Select the genome you wish to use”选项中选择“Custom”后,上传融合的文件作为设计多重PCR引物时的参考基因组。DNA Type选项选择“Standard DNA”,在Add Hotspot选项中,添加需要设计的通用测试区域内的SNP位点的位置信息即可,包括染色体信息、SNP的起始位点和SNP的结束位点,其部分实例见表1。最后点击“Submit targets”按钮提交并得到设计的多重PCR引物。本实施例中,从所有5130个测试区域中,设计并验证了2506对多重PCR引物,用于扩增相应的2506个测试区域。验证多重PCR引物的方法为
8
CN 104805186 A
说 明 书
6/9页
按本发明提供的方法,提取同一株玉米上的叶片基因组DNA,并利用设计的多重PCR引物对获得的基因组DNA进行扩增、建库、高通量测序并分析测序片段组,去掉以下测试区域相应的引物:该测试区域的测序片段数不足1000或存在杂株基因型,保留下来的引物即为验证成功的多重PCR引物。所以,测试区域不包括扩增产生杂株基因型的区域,杂株基因型指频率≥0.02%,且杂株基因型与待测玉米品种的所有基因型间的差异碱基的数量≥2个或差异碱基中有非连续碱基的插入或缺失。由于基因组DNA来源于同一株玉米叶片,不可能存在杂株品种,因此,杂株基因型是由测试区域的特殊结构造成的PCR或测序偏好性错误,去掉这些测试区域避免了此类系统错误。规定测试区域为不包括扩增产生杂株基因型的测试区域的另一个目的是:保留下来的测试区域除了用作待测玉米品种间的实质性派生关系的测试外,还可以作杂株率的计算,实现了同一套测试引物的多重用处。验证成功的多重PCR引物也由该公司混合好后以液体的形式提供给客户使用。上述成功设计了多重PCR引物的2506个测试区域即为最终用于待测玉米品种检测的测试区域,其中,34个测试区域位于细胞质基因组上,剩余的2472个测试区域位于细胞核基因组上。已有的实质性派生品种判定都未采用细胞质基因组上的测试位点,而细胞质的不同,同样可以产生不同的品种性状表现,应该用于实质性派生品种关系的判定。[0047] 五、利用引物分别对两个抽样样本的DNA进行扩增,分别得到两个待测玉米品种在测试区域的扩增产物,扩增产物分别用于构建两个待测玉米品种的高通量测序文库,具体方法如下:
[0048] 利用文库构建试剂盒2.0(由美国LifeTechnology公司生产,货号为4475345)多重PCR扩增测试区域后,利用扩增产物构建高通量测序文库。该试剂盒包括以下试剂:5×Ion AmpliSeqTM HiFi Mix、FuPa试剂、转换试剂、测序接头溶液和DNA连接酶。文库构建的方法按该试剂盒的操作手册《Ion AmpliSeqTM Library Preparation》(出版号:MAN0006735,版本:A.0)进行。通过多重PCR扩增2506个测试区域,多重PCR的扩增体系如下:5×Ion AmpliSeqTM HiFi Mix 4μl、制备的测试区域引物混合液4μl、待测玉米品种“GL95”的DNA 10ng和无酶水11μl。多重PCR的扩增程序如下:99℃,2分钟;(99℃,15秒;60℃,4分钟)×25个循环;10℃保温。利用FuPa试剂消化掉多重PCR扩增产物中多余的引物后,再进行磷酸化,具体方法为:向多重PCR的扩增产物中加入2μL FuPa试剂,混匀后,在PCR仪上按如下程序反应:50℃,10分钟;55℃,10分钟;60℃,10分钟;10℃保存,得到混合物a,混合物a为含有经过磷酸化的扩增产物溶液。将磷酸化的扩增产物连接上测序接头,具体方法为:向混合物a中加入转换试剂4μL、测序接头溶液2μL和DNA连接酶2μL,混匀后,在PCR仪上按如下程序反应:22℃,30分钟;72℃,10分钟;10℃保存,得到混合液b。利用标准的乙醇沉淀方法纯化混合液b后溶解于10μL无酶水中。利用美国Invitrigen公司生产的
dsDNA HS Assay Kit(货号为Q32852)并按照其说明
书进行测定,并获得混合液b的质量浓度后,将纯化后混合液b稀释至15ng/ml,得到浓度约100pM的测试区域的高通量测序文库。[0049] 按照同样的方法,对待测玉米品种“1102”进行高通量测序文库的构建,同样得到浓度约100pM的测试区域的高通量测序文库。[0050] 六、对两个待测玉米品种的高通量测序文库分别进行高通量测序,分别得到两个待测玉米品种的测序片段组,方法如下:
9
CN 104805186 A[0051]
说 明 书
7/9页
确定高通量测序深度:高通量测序的深度≥5000倍,即平均覆盖测试区的片段数≥5000个片段,5000倍为一个经验值,可根据实际情况调整。之所以规定这个值,是因为5000倍的测序量成本并不高但足以准确计算30%的待测基因型频率,因此,规定5000倍作为高通量测序的深度。
[0052] 利用高通量测序文库进行高通量测序
[0053] 利用获得的所有测试区域的高通量测序文库和试剂盒Ion PI Template OT2 200Kit v2(美国invirtrigen公司生产,货号为4485146)进行测序前的ePCR(Emulsion PCR,乳化聚合酶链反应)扩增,操作方法按该试剂盒的操作手册进行。利用ePCR产物和试剂盒Ion PI Sequencing 200Kit v2(美国invirtrigen公司生产,货号为4485149)在Proton二代高通量测序仪上进行高通量测序,操作方法按该试剂盒的操作手册进行。在本实施例中,高通量测序通量设置为平均覆盖测试区域10000倍。[0054] 对高量测序结果进行预处理
[0055] 将高通量测序片段比对到所有2506个测试区域,去掉比对不成功和基因型检测不全的测序片段后,剩余的所有测序片段称为测序片段组。基因型检测不完全的测序片段是指没能将表1中“SNP在参考基因组上的位置”所示的所有SNP位点检测到的测序片段,基因型检测不全的原因是测序片段过短,比对不成功的原因是测序片段多为非特异扩增产物。
[0056] 七、分析两个待测玉米品种的测序片段组,分别获得两个待测玉米品种基因型,待测玉米品种基因型为测试区域内变异碱基的组合,且待测玉米品种基因型的频率≥30%,具体方法如下:
[0057] 将测序片段组比对到所有测试区域,并统计每个测试区域中的测序片段数,去掉测序片段数≤1000条的测试区域,剩余的测试区域为检测成功的测试区域。在本实施例中,共获得2465个检测成功的测试区域。比对到测试区域的片段称为该测试区域的测序片段,从测序片段中提取表1中“SNP在参考基因组上的位置”所示的位置的碱基组合称为该测序片段的基因型。基因型的频率是指测序片段组中,代表该基因型的测序片段数占该基因型所在测试区域的测序片段总数的比例。待测玉米品种基因型为测试区域内变异碱基的组合,且待测玉米品种基因型的频率≥30%。一般来说,所抽取的样本中,杂种子的量不高于10%,测序错误不超过1%,二者合计不超过11%,因此,对于纯合位点来说,待测玉米品种基因型只有一种,其频率应该大于89%,而对于杂合位点来说,待测玉米品种基因型有2种,其比例应该大于45.5%,因此,规定待测玉米品种基因型的频率≥30%,可以排除因测序错误和待测玉米品种中混杂有杂株而对待测玉米品种基因型的干扰。[0058] 例如,在测序片段组中,第1个测序区域的测序片段总数为9987条,有TCA、TCG、TCC、TCT……共25种基因型,代表这些基因型的测序片段数分别9612条、218条、1条、2条……,这些基因型的频率为9612/9987=96.25%、218/9987=2.18%、1/9987=0.01%、2/9987=0.02%……。按待测玉米品种基因型的定义,TCA为第1个测试区域的待测玉米品种“GL95”基因型,其它基因型为测序错误或杂株引起的基因型。按相同的方法,判断并获得全部2465个检测成功的测试区域的待测玉米品种“GL95”基因型。按与待测玉米品种“GL95”相同的方法提取待测玉米品种“1102”的DNA、构建高通量测序文库、高通量测序、分析测序片段组,同样获得了2465个检测成功的测试区域和
[0059]
10
CN 104805186 A
说 明 书
8/9页
待测玉米品种“1102”在所有检测成功的测试区域的基因型,部分结果见表1。由于篇幅限制,本实施例没有完整列出全部待测玉米品种在所有测试区域基因型,只列出了部分实例。同样基于篇幅限制,本实施例中还有部分地方也仅列出部分相关实例,其余未列出的数据可根据本实施例的方法补全。
[0060] 表1 为待测玉米品种基因型及其相关信息
[0061]
[0062] 八、比较两个待测玉米品种基因型,获得待测玉米品种间差异基因型的比例,方法
如下:
若在测试区域中,所有待测玉米品种基因型均无缺失,称该测试区域为待测玉米
品种的共有测试区域。在共有测试区域中,若待测玉米品种间的基因型不完全相同,则称该基因型为待测玉米品种间差异基因型,例如,若待测玉米品种A的基因型为AA、AA、AA、AA、AA/CC、AA/CC,待测玉米品种B对应的基因型为AA、CC、AA/CC、CC/TT、AA/CC、CC/TT,那么在这6个测试区域中待测玉米品种间差异基因型判定如下:不是、是、是、是、不是和是。以上基因型中的“/”代表该测试区域为基因杂合位点,因此检测到了“/”前后两种基因型。待测玉米品种间差异基因型的比例=拥有待测玉米品种间差异基因型的测试区域的数目/共有测试区域的数目。
[0064] 在本实施例中,待测玉米品种“1102”与待测玉米品种“GL95”的共有测试区域为2465个,在第1个共有测试区域中,它们的基因型分别为TCG和TCG,它们完全相同,因此,不为待测玉米品种间差异基因型。按此方法,逐个判断所有2465个共有测试区域中,是否存在待测玉米品种间差异基因型,结果为:所有共有测试区域中,存在待测玉米品种间差异基因型的测试区域数目为63个,所以,待测玉米品种间差异基因型的比例OD=63/2465=2.56%。
[0065] 根据待测玉米品种间差异基因型的比例和判定阈值,判断两个待测玉米品种的实质性派生关系,判断两个待测玉米品种的实质性派生关系的方法为:当待测玉米品种间差异基因型的比例<SD时,两个待测玉米品种具有实质性派生关系;当待测玉米品种间差异
[0063]
11
CN 104805186 A
说 明 书
9/9页
基因型的比例≥SD时,两个待测玉米品种不具有实质性派生关系,其中,SD为判定阈值。[0066] 本实施例中,待测玉米品种间差异基因型的比例=2.56% 12 因篇幅问题不能全部显示,请点此查看更多更全内容