首页 理论教育 基因组小卫星特征分析

基因组小卫星特征分析

时间:2022-02-09 理论教育 版权反馈
【摘要】:鉴于小卫星序列在了解整个基因组序列特征及其遗传进化方面的重要作用,因而在目前仍没有开展三疣梭子蟹基因组大规模系统测序的前提下,通过对随机测序获得的DNA序列中的小卫星重复序列的分析,对于初步了解三疣梭子蟹基因组序列的特征,以及开发抗病、抗逆方面的小卫星标记等具有重要的指导意义。根据重复单位长度划分的小卫星各种序列类型的重复单位拷贝数、平均拷贝数和拷贝数范围统计结果见表9。

基因组中的卫星序列一般可以分为两类:微卫星序列(microsatellitesequence)和小卫星序列(minisatellitesequence,Ramel,1997)。一般微卫星序列是指由1~6 bp重复单位组成的重复序列,小卫星序列是指由7~100 bp的重复单位组成的重复序列(Jauert et al,2002)。其中小卫星序列,由于其串联重复单位的数目在不同个体基因组的不同位点上数目都不同,被称为可变数目串联重复序列(Variable number tandem repeats,VNTRs)(Nakamura et al,1987)。这些小卫星序列不仅大量分布于真核生物的基因组中,也大量存在于许多原核生物的基因组中(Klevytska et al,2001),因而这些序列在基因组中的生物功能越来越受重视。

鉴于小卫星序列在了解整个基因组序列特征及其遗传进化方面的重要作用,因而在目前仍没有开展三疣梭子蟹基因组大规模系统测序的前提下,通过对随机测序获得的DNA序列中的小卫星重复序列的分析,对于初步了解三疣梭子蟹基因组序列的特征,以及开发抗病、抗逆方面的小卫星标记等具有重要的指导意义。

本研究所用的三疣梭子蟹2005年10月中旬采集自黄海的海州湾。提取三疣梭子蟹基因组DNA,用Sau3AI酶切后,经低融点琼脂糖凝胶电泳回收500~1.5.0 bp的片段,与PUC19质粒连接后,将重组DNA转化到大肠杆菌DH5α中,从而建立三疣梭子蟹部分基因组文库。

通过软件Tandem Repeats Finder(Version 3.21)对拼装后的克隆序列进行分析,查找小卫星序列。Tandem Repeats Finder 的查找参数如下:alignment parameters(match,mismatch,indel)5(2,7,7),minimum Alignmentscore to Report Repeat550,Maximum Periodsize51000。利用本实验室编写的Excel宏程序对Tandem Repeats Finder的初步分析结果进行细化和汇总分析。判定是否为小卫星重复序列的人工细化分析的标准如下:重复序列中重复单位的长度在7~80 bp,拷贝数目 ≥2个。设定一个小卫星序列中的最高众数重复单位序列作为标准重复单位,且与标准重复单位相比较,各重复单位平均碱基匹配率(即一致性)在70%以上。

使用变异系数来衡量小卫星重复类型的变异水平高低,变异系数的计算公式为:CV5,其中s为小卫星拷贝数的标准差,x 为小卫星序列拷贝数平均值。变异系数CV可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响,能够真实地反映重复类型变异能力的大小,便于进行类型间的比较。

2.2.1 小卫星重复序列在基因组中的分布特征

通过软件分析,从622409个碱基长度的序列中共找到了827个重复序列,小卫星重复序列为130个,占重复序列总数目的比例为15.72%。平均每10万碱基所具有的小卫星重复序列数目约为21个。

130个小卫星重复序列中,总共筛选到了123种重复类型,平均1.06个重复序列中就能够发现一种重复类型。不同长度重复单位的重复序列数目分布情况为:以12 bp重复单位的序列数目最多(14个),占小卫星重复序列总数目的10.77%(图6),20 bp 重复单位次之(11个),比例为8.46%,总体趋势表现为随着重复单位长度的增加,相应的重复序列数目降低,统计相关分析结果表明两者间存在着显著负相关(r520.663,P , 0.01)。小卫星序列总长度为15.8.2 bp,不同长度重复单位类型的重复序列累计长度以26 bp重复单位的序列长度为最高(2.0.2 bp),其次为8 bp重复单位(1.1.0 bp),12 bp重复单位(1.0.7 bp),31 bp重复单位(1.0.5 bp),20 bp重复单位(995 bp),统计相关检验表明两者存在着负相关关系,但是相关系数较小(r520.458,P , 0.01)。

图6 不同长度重复单位组成的重复序列的数量分布

2.2.2 小卫星重复单位拷贝数分布及变异能力分析

根据重复单位长度划分的小卫星各种序列类型的重复单位拷贝数、平均拷贝数和拷贝数范围统计结果见表9。130个小卫星重复序列中,重复单位拷贝数以8 bp范围最广,为3.9~66.5;其次是13 bp 重复,范围在2.0~40.6;再次是26 bp重复,范围在2.3~21.0。平均拷贝数最高的三种重复类型分别为8 bp重复(19.96)、25 bp重复(16.00)和22 bp重复(15.85)。

表9 小卫星重复序列的频率和分布特征

续表

变异系数是衡量观测值变异程度的一个统计量,变异系数越大,这种重复类型的变异能力越大。我们计算了小卫星各种类型重复单位拷贝数的变异系数。变异能力最强的前5种类型分别是:13 bp(165.43)、8 bp(108.85)、20 bp(97.94)、23 bp(95.05)、21 bp(82.37)。小卫星序列重复单位长度与变异系数相关,分析表明,尽管两者的相关性表现为显著,但是相关系数较小(r520.309,P , 0.01)。小卫星序列中各重复单位的拷贝数分布范围2~66.5,集中分布在2~25,不同拷贝数目所对应的重复序列数量的分布情况为:拷贝数目为3的重复单位所组成的重复序列数目最多(43个),其次是拷贝数目为4的重复序列(15个),随着拷贝数目的增加,由其所组成的重复序列的数目呈递减的趋势,二者呈显著的负相关(r520.592,P , 0.01)(图7)。

图7 不同拷贝数目所对应的重复序列数目

本研究获得了代表着622409个碱基的基因组总长度。在这些基因组序列中,共筛选到了130个小卫星序列,序列总长度为15.8.2 bp,约占基因组测序串联重复序列总长度的15.72%,约占测序序列总长度的2.55%,即平均每1.0.0 bp核苷酸序列中包含25.5 bp的小卫星序列。

从结果中可以发现,三疣梭子蟹部分基因组文库中的小卫星序列的分布有两个较为显著的特点,一是随着重复单位长度的增加,其所对应的重复序列的数目在减少;另一个特点是小卫星序列重复单位拷贝数主要集中在低拷贝区(2~22),而且重复单位拷贝数目与小卫星序列数目间存在着较为显著的负相关。高焕等(2004)对中国对虾随机基因组小卫星序列特征分析结果表明,重复单位长度与其重复序列数目间存在着负相关,小卫星序列中以12 bp重复单位的序列数目为最多,在重复单位低拷贝数(2 ~ 21)范围内分布着大部分的小卫星序列。栾生等(2007)对日本囊对虾小卫星序列的特征分析表明,随着重复单位长度的增加,相应的重复序列数目降低,统计相关分析结果表明二者间存在着极显著负相关(r520.826,P , 0.01)。不同长度重复单位类型的重复序列累计长度的分布情况与序列数目的分布趋势类似,也以12 bp 重复单位的序列长度为最高。考虑到中国对虾、日本囊对虾与三疣梭子蟹一样都同属于甲壳纲动物,这个分析结果显示出小卫星在进化上存在着一致性。

Hancock(2002)认为重复序列的数量与基因组大小是有关联的,重复序列越多,基因组越大。在基因组很小的噬菌体M13中,已经有了小卫星重复序列的存在(Meyer et al,2001)。在水生动物甲壳类中,高焕等(2004)对中国对虾的基因序列分析表明其每万碱基约含有6.2个小卫星序列。栾生等(2007)对日本囊对虾的基因序列分析表明其每1.0.0 bp核苷酸序列中包含37.9 bp的小卫星序列。在本研究中,三疣梭子蟹平均每1.0.0 bp核苷酸序列中包含25.5 bp的小卫星序列。

2.2.3 小卫星重复单位的碱基组成特征

在查找到的130个小卫星重复序列中,有4个同一个重复单位所组成的不同拷贝数的重复序列(如重复单位TGTATTTACCTAGT与TACAACTAGGTAAA被归为一类),即在这些重复序列中,130个重复序列代表了123种重复单位所组成的重复序列。对这些序列按照材料和方法中的统计原则进行分类(表10)。

表10 小卫星重复序列的碱基组成及其分类

从表10中可以看出,三疣梭子蟹基因组小卫星序列主要以四碱基组成类别构成,达到70.77%。两碱基组成类别最少,只有10.00%。在二碱基组成类别的重复序列中,富含A/T 的序列为AT1 AC1 AG5.1.1 4.1.3 5 8,富含G/C的序列为CT1 CA55(高焕等,2004),富含A/T的序列大于富含G/C的序列;在三碱基组成类别的序列中,富含A/T序列数目可以保守地估计为ATC1 ATG1 ACT1 AGT5.3.1 6.1.5 1.1.5 15,远远大于富含G/C的序列数目(约CTG5 3);在四碱基组成类别的重复序列中,富含A/T的序列约为ATCG1 ATGC1 ACTG1 AGTC5.13.1 15.1.10 1.9.5 47,也明显大于富含G/C的序列,因而总体上,三疣梭子蟹基因组中的小卫星是富含A/T的重复序列,主要以ATN和ATNN(N代表G或C)类别为主。

三疣梭子蟹基因组130个小卫星重复序列中,四碱基组成类别的序列占70.07%,可见三疣梭子蟹基因组小卫星重复序列主要是四碱基组成类别构成的。简纪常等(2002)对单个小卫星中的序列进一步归类说明时,根据其碱基组成的特点,将其分成富含A、T和其他等三类。而在基于基因组调查性质的小卫星序列的描述上,这些归类明显不能全面描述基因组小卫星的特征。相对来讲,此归类有以下几点好处:① 可以初步看出重复序列中碱基的组成种类;② 可以对整体小卫星序列中的各碱基含量进行估计;③ 由此而分出的类别较为简单明了。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈